Программирование Викиданных/Обзор Викиданных

Факультет компьютерных технологий
Иконка программы Pywikibot

Программирование Викиданных

Главы (2021):

Алгоритм работы (для авторов):

Обзор Викиданных править

Викиданные править

Викиданные — это структурированная и совместно редактируемая база данных, созданная Фондом Викимедиа. Проект был официально запущен 30 октября 2012 года, его разработка ведется под руководством Wikimedia Deutschland[1]. Проект создавался за счёт пожертвований Allen Institute for Artificial Intelligence, Gordon and Betty Moore Foundation и Google. В данный момент Викиданные — это бесплатная и свободная база знаний, которая может использоваться и редактироваться людьми и машинами[2].

Любой объект Викиданных имеет свой уникальный идентификатор и свойства. Эта информация может быть обработана с помощью компьютера, и при этом она понятна пользователям. Сайт Викиданных содержит сервис "Wikidata Query", включающий набор инструментов для построения SPARQL-запросов и их визуализации в виде таблиц, диаграмм, графов или географических карт.

Содержимое Викиданных распространяется по лицензии Creative Commons CC0, которая позволяет повторно использовать информацию самыми разными способами: пользователи могут копировать, изменять, распространять и обрабатывать эти данные в любых целях. Еще одна особенность Викиданных — это многоязычность. Любой человек может редактировать Викиданные более чем на 350 языках.

Викиданные постоянно обновляются, добавляются новые объекты. На 2021 год насчитывается более 95 миллионов страниц и более полутора миллиардов правок[3]. В 2019 года в Викиданных было совершено более 800 тысяч правок, что превзошло количество правок в английской Википедии и сделало Викиданные наиболее редактируемым сайтом Викимедиа[4].

Объект «математик» в Викиданных — этот раздел не нужен.

Об исследовании Викиданных править

В работе "A large-scale collaborative ontological medical database"[5] описываются плюсы использования Викиданных для создания крупномасштабной совместной медицинской базы данных. Основные требования к создаваемой базе данных — это платформа с обновлением в реальном времени, подходящая лицензия для последующего использования полученной информации, свободное редактирование на любом языке. Именно это и есть основные характеристики Викиданных. Во-первых, Викиданные — это открытая, редактируемая база знаний. Любой пользователь без навыков программирования может вносить изменения более чем на 350 языках и диалектах. Во-вторых, информация постоянно обновляется, добавляются новые объекты. В настоящее время Викиданные насчитывают более 18000 редакторов. В-третьих, лицензия Creative Commons CC0 обеспечивает широкое использование полученной информации.

Есть несколько альтернативных вариантов баз знаний:

  1. Cyc — проект компании Cycorp (Остин, США) по созданию онтологической базы знаний, позволяющий решать задачи из области искусственного интеллекта. Сейчас Cyc имеет исследовательскую лицензию ResearchCyc. У данной базы знаний есть некоторые недостатки: сложность системы (сложность добавления данных вручную), недостаток документации для изучения системы, неполнота системы.
  2. Evi (ранее True Knowledge) – технологическая компания в Кембридже (Англия), которая специализируется на базе знаний и программном обеспечении семантического поиска. Добавление информации в базу знаний осуществляется двумя способами: импорт из «заслуживающих доверия» внешних баз данных (например: Википедия) и из представления пользователей в соответствии с единообразным форматом и подробным процессом ввода. Как и в Википедии, пользователь может изменять данные, «соглашаться» или «не соглашаться» с информацией, представленной True Knowledge. Система может отклонить любые факты, которые семантически несовместимы с другими утвержденными знаниями, в отличие от Викиданных, где могут храниться противоречивые данные.

По мнению авторов статьи, Викиданные являются лучшим вариантом для обработки информации, т.к. можно связывать объекты через их свойства (экземпляр P31, подкласс 279, часть P361, имеет часть P527), создавать SPARQL-запросы, визуализировать их результаты в виде таблиц, графов, диаграмм или сохранять в нужном формате (CSV, JSON, SVG).

Таким образом, авторы призывают обратить внимание на Викиданные, которые могут взять на себя роль централизованного хранилища данных. В статье "Falcon 2.0: An Entity and Relation Linking Tool over Wikidata"[6] приводится пример использования Викиданных в качестве централизованной и общедоступной базы знаний для системы FALCON 2.0. Это инструмент, связывающий сущность и отношения через Викиданные. Эта система идентифицирует сущности в коротком тексте или вопросе, а затем связывает их с соответствующими URL в графе знаний Викиданных.

Неоднозначность объекта Викиданных править

Как говорилось ранее любой объект Викиданных имеет свойства. Одно из них – "P31" (instance of – экземпляр класса). Оно определяет класс, к которому принадлежит объект. В правилах Викиданных и в некоторых статьях[7], которые были найдены с помощью сайта https://scholar.google.com/[8], написано, что объекту соответствует один класс.

Но в ходе исследований было обнаружено, что это не всегда так. Оказалось, что некоторые объекты являются экземплярами совершенно разных классов. Например, Королевская шведская академия наук (Q191583) является экземплярами сразу трех классов: академии наук, сооружении и королевской академии Швеции. На мой взгляд, такое определение классов в этом случае верно. Поскольку данный объект можно рассматривать как организацию, целью которой является развитие науки, и как архитектурное сооружение.

Разрешением задачи о лексической многозначности занимался ученый Angela Fogarolli из итальянского университета. Результаты исследований были представлены в виде статьи "Word Sense Disambiguation based on Wikipedia Link Structure"[9]. Автор выделяет объекты неоднозначностей, которые соответствует нескольким классам в зависимости от контекста и допускает наличие нескольких классов в свойстве "instance of".

Качество Викиданных править

В докторской диссертации Alessandro Piscopo[10] рассказывается о социально-технических процессах и качестве данных проекта Викиданные, в котором с даты запуска (2012 год) произошли большие изменения. На данный момент редакторами проекта являются более 200 тысяч пользователей, которые сделали более 50 миллионов правок.

В диссертации рассказывается о том, что пользователи Викиданных имеют возможность добавлять отдельные фрагменты информация, выполнять редактирование через различные интерфейсы и работать с такими платформами как Википедия, но при этом они несут ответственность за поддержание схемы графа знаний. Однако эту работу должна выполнять команда обученных специалистов в соответствии с четко продуманными методами. Эти действия осуществляются с помощью инструментов, которые составляют техническую основу системы.

Особым инструментом как в Викиданных, так и в Википедии являются боты. Это части программного обеспечения, которые автоматически могут выполнять различные действия на платформе с большой скоростью (более тысячи правок в минуту). Их основная задача – редактирование существующих данных, добавление и импорт новых из других ресурсов. Боты создают отчеты, с помощью которых пользователь может исправлять некоторые неточности.

Таким образом, боты являются одним из ключевых технических компонентов Викиданных. Пользователи добавляют и модифицируют данные, а также общаются между собой с помощью веб-интерфейса Викиданных. Также доступны плагины, которые предупреждают редакторов, когда они собираются выполнить ревизию, которая может привести к любым ошибкам в данных.

Также стоит обратить внимание на статью «Сетевая структура научных революций», в которой на примере Википедии рассматривается процесс формирования знаний в виде постоянно растущих сетей из статей и их взаимосвязанных гиперссылок. Эта концепция реализуется за счет заполнения пробелов в знаниях. Авторы сформулировали цель своей работы в одном предложении: "The authors test theories of scientific progress on growing concept networks and reveal data-driven conditions underlying breakthroughs", т.е. авторы проверяют теории научного прогресса на растущих концептуальных сетях и раскрывают управляемые данными условия, лежащие в основе прорывов[11].

В процессе исследований было проведено ранжирование всех статей Википедии на сети по определенным критериям. Каждый узел сети соответствует определенной статье, имя узла – это заголовок статьи, год рождения узла – это первый год, указанный во введении или в разделе истории как год, когда концепция была задумана. Затем на основе текущего состояния сетей были определены некоторые закономерности в эволюции этих структур на протяжении времени и периоды, когда сеть наиболее быстро менялась.

Полученные результаты показали, что человеческие знания растут и как следствие происходит постепенное изменение сетевой структуры (заполняются некоторые пробелы в знаниях). Авторы статьи считают, что знания, обнаруженные при заполнении пробелов, будут иметь важное значения для научных инноваций.

Данная статья имеет непосредственное отношение к качеству Викиданных, потому что информация для Викиданные чаще всего берется из Википедии. Если будут заполнены пробелы в Википедии, то новые данных обязательно будут добавлены в Викиданные. Следовательно, база знаний будет более подробной.

Примечания править

  1. Здесь и в Латех лучше не определение Википедии, а дать (на полях) пояснение, что такое Wikimedia Deutschland.
  2. D. Vrandečić, M. Krӧtzsch., 2014
  3. Wikidata:Statistics
  4. Wikipedia: The Free Encyclopedia
  5. Turki et al., 2019
  6. Sakor A., Singh K., Patel A., Vidal Maria-Esther
  7. Navigli R. and Ponzetto S. P.
  8. Академия Google
  9. Fogarolli A.
  10. Piscopo A.
  11. Ju H., Zhou D., Blevins A. S. [et al.]

Литература править