Программирование Викиданных/Корпус текстов
Факультет компьютерных технологий |
Главы (2021):
Алгоритм работы (для авторов): |
Названия темы
правитьЦели работы
правитьИсследуем корпуса текстов.
- Выявить и систематизировать структуры данных (утверждения), связанные с корпусами.
- Проанализировать такие объекты. Оценить ситуацию по языкам.
Объекты исследований
правитьРассмотрим объекты следующих типов:
- Корпус текстов text corpus (Q461183).
- Электронная библиотека digital library (Q212805).
- Детские писатели.
- Детские писатели
Детские писатели - это такие персоны (instance of = human), у которых свойство occupation (P106) включает children's writer (Q4853732).
Например, Samuil Marshak (Q435584) и Korney Chukovsky (Q347685).
Задачи:
- написать SPARQL-запрос для поиска детских писателей,
- найти соответствующие категории (списки) детских писателей,
- добавить им утверждение: occupation = children's writer
- добавить такие иные свойства этим писателям, которые позволят выполнить интересный и содержательный анализ статей об этих людях.
I. Поиск утверждений (statements)
правитьЗадача состоит в поиске и выявлении утверждений Викиданных, связанных с описанием корпусов, библиотек.
Следует просмотреть объекты Викиданных в следующих категориях:
- w:Category:English Corpora (16 страниц на 2017-01)
- w:Category:Digital libraries (142 страницы, нужно чистить, на 2017-01)
В корпусах и библиотеках используются утверждения (в дальнейшем заполняем):
Постановка задачи
правитьЭкземпляры объекта "Корпус текста"
править- Объекты: корпуса текстов (Q461183)
#added 2017-02
#List of `instances of` "text corpus"
SELECT ?lang ?langLabel
WHERE
{
?lang wdt:P31 wd:Q461183.
SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}
SPARQL query 11 Results
👍 Наиболее полными и проработанными корпусами на Викиданных являются: Послания Павла, Тексты Саркофагов
👎 Почти пустыми и малоинформативными корпусами оказались: American National Corpus, Europarl corpus, Чешский национальный корпус, Письменный корпус татарского языка
Полнота Викиданных
правитьПо данным монографии [1], изданной в 2014 году, уже тогда существовало как минимум 27 корпусов, 19 из которых англоязычные. Это если мы говорим о рассмотренных в книге корпусах. На самом же деле не исключено, что существует куда больше корпусов, просто не все из них достаточно известны. Что может подтвердить следующий источник http://web-corpora.net, ссылающийся на 16 корпусов, не указанных в ранее упомянутом издании. По данным же категории text corpus проекта Википедии Викиданные существует 11 корпусов. Точнее при поиске корпусов текстов с помощью SPARQL-запроса Викиданные выдают 11 ссылок на статьи о корпусах в Википедии. Не трудно заметить, посетив статью Корпус текстов Русской Википедии, что данная статья ссылается на 2 корпуса НКРЯ и ГИКРЯ, последний из которых НЕ выводится при поиске по Викиданным. Написанное выше говорит о том, что:
- существуют малоизвестные корпуса, не имеющие статьи в Википедии
- поиск по Викиданным не даёт полного результата, отражающего действительно существующие объекты и, как следствие, следующий пункт
- объекты Википедии (статьи) нуждаются в отнесении их к категориям для улучшения поиска по Викиданным
Экземпляры объекта "Детский писатель"
править- объект: human (Q5)
- свойство: occupation (P106) = children's writer
#added 2017-02
#List of `instances of` "children's writer"
SELECT ?item ?itemLabel
WHERE
{
#humans only
?item wdt:P31 wd:Q5;
#occupation = children's writer
wdt:P106/wdt:P279* wd:Q4853732.
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru" }
}
SPARQL query 6862 Results
👍 Наиболее полными и проработанными корпусами на Викиданных являются:
👎 Почти пустыми и малоинформативными корпусами оказались:
Детские русские писатели
править#added 2017-02
#List of `instances of` "children's writer"
SELECT ?item ?itemLabel
WHERE
{
#humans only
?item wdt:P31 wd:Q5;
#occupation = children's writer
wdt:P106/wdt:P279* wd:Q4853732;
wdt:P1412 wd:Q7737.
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru" }
}
SPARQL query 313 Results
👍 Наиболее полными и проработанными статьями на Викиданных являются: Лев Толстой, Аркадий Гайдар, Борис Акунин
👎 Почти пустыми и малоинформативными статьями оказались: Ершов Пётр Павлович, произведение - сказка «Конёк-Горбунок», Антоний Погорельский, произведение - сказка «Чёрная курица, или Подземные жители», Александр Николаевич Афанасьев, произведение - «Русские народные сказки» в 3х томах. Подходит ли так как специализируется на фольклоре?, Саша Чёрный, произведение - ?, Борис Степанович Жидков, произведение - «Метель».
old vers: 👎 Почти пустыми и малоинформативными корпусами оказались: Полякова Надежда, Носов Игорь, Михаил Жестев
Детские писатели, умершие более 70 лет назад (до 1947 года) и отсортированные по возрастанию года смерти
править- +свойство: date of death (P570)
#added 2017-02
#List of `instances of` "children's writers who died before 1947 year"
SELECT DISTINCT ?item WHERE
{
?item wdt:P31 wd:Q5 ;
wdt:P106/wdt:P279* wd:Q4853732 .
?item wdt:P570 ?dateofdeath .
FILTER(?dateofdeath <= "1947-01-01T00:00:00Z"^^xsd:dateTime)
}
ORDER BY ASC (?dateofdeath)
SPARQL query 573 Results
Детские русские писатели, умершие более 70 лет назад
править#added 2017-02
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>
SELECT ?item WHERE {
?item wdt:P31 wd:Q5.
?item (wdt:P106/wdt:P279*) wd:Q4853732.
?item wdt:P1412 wd:Q7737.
?item wdt:P570 ?dateofdeath.
FILTER(?dateofdeath <= "1947-01-01T00:00:00Z"^^xsd:dateTime)
}
ORDER BY ?dateofdeath
SPARQL query 49 Results
#added 2017-10
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>
SELECT ?item ?itemLabel
WHERE {
?item wdt:P31 wd:Q5.
?item (wdt:P106/wdt:P279*) wd:Q4853732.
?item wdt:P1412 wd:Q7737.
?item wdt:P570 ?dateofdeath.
FILTER(?dateofdeath <= "1947-01-01T00:00:00Z"^^xsd:dateTime)
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru"}
}
ORDER BY ?dateofdeath
SPARQL query 49 Results
👍 Наиболее полными и проработанными статьями на Викиданных являются: Лев Толстой, Аркадий Гайдар, Ершов Пётр Павлович
👎 Почти пустыми и малоинформативными статьями оказались: Бурнашева Софья Петровна, Альмединген Екатерина Николаевна, Ишимова Александра Осиповна
Экземпляры объекта "Электронная библиотека"
править- Объекты: Электронные библиотеки (Q212805)
#added 2017-02
#List of `instances of` "text corpus"
SELECT ?lang ?langLabel
WHERE
{
?lang wdt:P31 wd:Q212805.
SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}
SPARQL query 78 Results
👍 Наиболее полными и проработанными корпусами на Викиданных являются:
👎 Почти пустыми и малоинформативными корпусами оказались:
Литература
правитьКотов А. А., Минеева З. И., Рогов А. А., Седов А. В., Сидоров Ю. В. Лингвистические корпусы. — Петрозаводск: ПетрГУ, 2014. — С. 9-14. — 140 с.
Примечания
править- ↑ Лингвистические корпусы, 2014, с. 9-14