Программирование Викиданных/Корпус текстов

Факультет компьютерных технологий
Иконка программы Pywikibot

Программирование Викиданных

Главы (2021):

Алгоритм работы (для авторов):

Названия темы править

Цели работы править

Исследуем корпуса текстов.

  1. Выявить и систематизировать структуры данных (утверждения), связанные с корпусами.
  2. Проанализировать такие объекты. Оценить ситуацию по языкам.

Объекты исследований править

Рассмотрим объекты следующих типов:

  1. Корпус текстов text corpus (Q461183).
  2. Электронная библиотека digital library (Q212805).
  3. Детские писатели.
Детские писатели

Детские писатели - это такие персоны (instance of = human), у которых свойство occupation (P106) включает children's writer (Q4853732).

Например, Samuil Marshak (Q435584) и Korney Chukovsky (Q347685).

Задачи:

  1. написать SPARQL-запрос для поиска детских писателей,
  2. найти соответствующие категории (списки) детских писателей,
  3. добавить им утверждение: occupation = children's writer
  4. добавить такие иные свойства этим писателям, которые позволят выполнить интересный и содержательный анализ статей об этих людях.

I. Поиск утверждений (statements) править

Задача состоит в поиске и выявлении утверждений Викиданных, связанных с описанием корпусов, библиотек.

Следует просмотреть объекты Викиданных в следующих категориях:

В корпусах и библиотеках используются утверждения (в дальнейшем заполняем):

  1. instance of (P31) = text corpus (Q461183), 10 результатов на 2017-01
  2. language of work or name (PP407)

Постановка задачи править

Экземпляры объекта "Корпус текста" править

#added 2017-02
#List of `instances of` "text corpus" 
SELECT ?lang ?langLabel
WHERE
{
    ?lang wdt:P31 wd:Q461183.
    SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}

SPARQL query 11 Results

👍 Наиболее полными и проработанными корпусами на Викиданных являются: Послания Павла, Тексты Саркофагов

👎 Почти пустыми и малоинформативными корпусами оказались: American National Corpus, Europarl corpus, Чешский национальный корпус, Письменный корпус татарского языка

Полнота Викиданных править

По данным монографии [1], изданной в 2014 году, уже тогда существовало как минимум 27 корпусов, 19 из которых англоязычные. Это если мы говорим о рассмотренных в книге корпусах. На самом же деле не исключено, что существует куда больше корпусов, просто не все из них достаточно известны. Что может подтвердить следующий источник http://web-corpora.net, ссылающийся на 16 корпусов, не указанных в ранее упомянутом издании. По данным же категории text corpus проекта Википедии Викиданные существует 11 корпусов. Точнее при поиске корпусов текстов с помощью SPARQL-запроса Викиданные выдают 11 ссылок на статьи о корпусах в Википедии. Не трудно заметить, посетив статью Корпус текстов Русской Википедии, что данная статья ссылается на 2 корпуса НКРЯ и ГИКРЯ, последний из которых НЕ выводится при поиске по Викиданным. Написанное выше говорит о том, что:

  • существуют малоизвестные корпуса, не имеющие статьи в Википедии
  • поиск по Викиданным не даёт полного результата, отражающего действительно существующие объекты и, как следствие, следующий пункт
  • объекты Википедии (статьи) нуждаются в отнесении их к категориям для улучшения поиска по Викиданным


Экземпляры объекта "Детский писатель" править

#added 2017-02
#List of `instances of` "children's writer" 
SELECT ?item ?itemLabel
WHERE
{
   #humans only
   ?item wdt:P31 wd:Q5;
   #occupation = children's writer
   wdt:P106/wdt:P279* wd:Q4853732. 
  
   SERVICE wikibase:label { bd:serviceParam wikibase:language "ru" }
}

SPARQL query 6862 Results

👍 Наиболее полными и проработанными корпусами на Викиданных являются:

👎 Почти пустыми и малоинформативными корпусами оказались:

Детские русские писатели править

#added 2017-02
#List of `instances of` "children's writer" 
SELECT ?item ?itemLabel
WHERE
{
   #humans only
   ?item wdt:P31 wd:Q5;
   #occupation = children's writer
   wdt:P106/wdt:P279* wd:Q4853732;
   wdt:P1412 wd:Q7737.
  
   SERVICE wikibase:label { bd:serviceParam wikibase:language "ru" }
}

SPARQL query 313 Results

👍 Наиболее полными и проработанными статьями на Викиданных являются: Лев Толстой, Аркадий Гайдар, Борис Акунин

👎 Почти пустыми и малоинформативными статьями оказались: Ершов Пётр Павлович, произведение - сказка «Конёк-Горбунок», Антоний Погорельский, произведение - сказка «Чёрная курица, или Подземные жители», Александр Николаевич Афанасьев, произведение - «Русские народные сказки» в 3х томах. Подходит ли так как специализируется на фольклоре?, Саша Чёрный, произведение - ?, Борис Степанович Жидков, произведение - «Метель».


old vers: 👎 Почти пустыми и малоинформативными корпусами оказались: Полякова Надежда, Носов Игорь, Михаил Жестев

Детские писатели, умершие более 70 лет назад (до 1947 года) и отсортированные по возрастанию года смерти править

#added 2017-02
#List of `instances of` "children's writers who died before 1947 year"
SELECT DISTINCT ?item WHERE
{
  ?item wdt:P31 wd:Q5 ;
  wdt:P106/wdt:P279* wd:Q4853732 .
  ?item wdt:P570 ?dateofdeath .
  FILTER(?dateofdeath <= "1947-01-01T00:00:00Z"^^xsd:dateTime)
}
ORDER BY ASC (?dateofdeath)

SPARQL query 573 Results

Детские русские писатели, умершие более 70 лет назад править

#added 2017-02
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>

SELECT ?item WHERE {
  ?item wdt:P31 wd:Q5.
  ?item (wdt:P106/wdt:P279*) wd:Q4853732.
  ?item wdt:P1412 wd:Q7737.
  ?item wdt:P570 ?dateofdeath.
  FILTER(?dateofdeath <= "1947-01-01T00:00:00Z"^^xsd:dateTime)
   
}
ORDER BY ?dateofdeath

SPARQL query 49 Results

#added 2017-10
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>

SELECT ?item ?itemLabel 
WHERE {
  ?item wdt:P31 wd:Q5.
  ?item (wdt:P106/wdt:P279*) wd:Q4853732.
  ?item wdt:P1412 wd:Q7737.
  ?item wdt:P570 ?dateofdeath.
  FILTER(?dateofdeath <= "1947-01-01T00:00:00Z"^^xsd:dateTime)
  SERVICE wikibase:label { bd:serviceParam wikibase:language "ru"}    
}

ORDER BY ?dateofdeath

SPARQL query 49 Results

👍 Наиболее полными и проработанными статьями на Викиданных являются: Лев Толстой, Аркадий Гайдар, Ершов Пётр Павлович

👎 Почти пустыми и малоинформативными статьями оказались: Бурнашева Софья Петровна, Альмединген Екатерина Николаевна, Ишимова Александра Осиповна

Экземпляры объекта "Электронная библиотека" править

#added 2017-02
#List of `instances of` "text corpus" 
SELECT ?lang ?langLabel
WHERE
{
    ?lang wdt:P31 wd:Q212805.
    SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}

SPARQL query 78 Results

👍 Наиболее полными и проработанными корпусами на Викиданных являются:

👎 Почти пустыми и малоинформативными корпусами оказались:

Литература править

Котов А. А., Минеева З. И., Рогов А. А., Седов А. В., Сидоров Ю. В. Лингвистические корпусы. — Петрозаводск: ПетрГУ, 2014. — С. 9-14. — 140 с.

Примечания править

  1. Лингвистические корпусы, 2014, с. 9-14