Программирование Викиданных/Школы

Школа — это учебное заведение для получения общего образования. Статья посвящена исследованию школ на основе Викиданных.

Для изучения школ используются SPARQL-запросы, работающие с объектами Викиданных типа «школа». Получен список всех ныне существующих школ, описанных в Викиданных. В статье присутствует анализ полноты базы Викиданных, содержащей информацию о школах, а также по Викиданным построены карта расположения российских школ и линейная диаграмма, на которой отображено количество известных выпускников каждой школы. По этой карте можно убедиться, что основные скопления школ находятся в Москве и Санкт-Петербурге, а по линейной диаграмме видно, что в основном Викиданным известны по два выпускника из каждой школы.

Экземпляры объекта "Школа"

править

Построим список всех школ.

#List of schools
SELECT ?school ?schoolLabel
WHERE
{
  ?school wdt:P31 wd:Q3914.
  SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}

SPARQL-запрос, 18615 объектов(2017 г.) / 36482 объектов(2021 г.).

Примеры наиболее полно проработанных экземпляров объекта "Школа":

  1. Консерватория искусств и ремёсел
  2. Коннектикут-колледж
  3. Гринвиллский колледж

Примеры плохо заполненных ранее экземпляров объекта "Школа":

  1. Державинский лицей
  2. Школа имени Горчакова
  3. Классическая гимназия № 1 имени В. Г. Белинского

Полнота Викиданных

править

По данным Федеральной службы государственной статистики РФ, к 2016 году в России насчитывалось 42,6 тыс. школ[1]. По данным SPARQL-запроса, школ, находящихся на территории России, насчитывается всего 82. Имеет место быть огромная разница между цифрами Росстата и Викиданными.

То же самое можно наблюдать в отношении любой страны. Например, по данным ещё одного SPARQL-запроса, школ в США насчитывается 20, что, само собой разумеется, не соответствует действительности (по статистике — 28 220 школ в 2008 году)[2].

Трудности в оценке полноты Викиданных также вызывает то, что для огромного количества школ (4629 объектов), представленных в Викиданных, не указана страна (SPARQL-запрос). Такие школы составляют около 25% от общего числа школ в Викиданных. Это не позволяет отнести школу к какой-либо стране и сравнить официальные данные страны с Викиданными.

Заполнение Викиданных

править

Решено заполнить свойство "ученики (P802)" у российских школ.

Это свойство показывает список известных выпускников школы, людей, так или иначе отмеченных в истории. Рассмотрим в качестве примера Державинский лицей. Известной выпускницей лицея является Г. И. Ширшина, российский политический и общественный деятель.

Определим, сколько российских школ до момента выполнения задания не имели свойства "ученики (P802)".

SELECT ?school WHERE {
  ?school wdt:P31 wd:Q3914.  # school
  ?school wdt:P17 wd:Q159.   # Russian schools
  FILTER NOT EXISTS { ?school wdt:P802 []}  # empty property "student"
}

По данным SPARQL-запроса, школ без известных учеников оказалось 82.

Также было обнаружено 7 российских школ, имеющих известных учеников (по данным Википедии), но с незаполненным свойством "страна (P17)" на Викиданных. Поэтому вначале было заполнено свойство "страна (P17)" у этих объектов, таким образом, количество российских школ для заполнения известных учеников увеличилось на 7 и стало равняться 89.

В ходе заполнения свойства было обнаружено, что пара школ имели ложное свойство "страна (P17)" Россия, и потому это было исправлено, отчего количество российских школ слегка уменьшилось.

Также в ходе работы была выполнена дополнительная работа по заполнению Label на английском для известных выпускников, связанных свойством "ученики (P802)" с исследуемыми школами.

Итог работы таков: удалось заполнить свойство "ученики (P802)" у 45 российских школ. Остальные школы либо не имели известных выпускников, либо не были описаны в Википедии. Список отечественных школ с заполненным свойством "ученики (P802)" получим с помощью следующего скрипта:

SELECT ?school ?schoolLabel (count(*) as ?countStudents) WHERE {
  ?school wdt:P31 wd:Q3914.            # the object is the school
  { ?school wdt:P17 wd:Q34266 } UNION  # Russian Empire
  { ?school wdt:P17 wd:Q15180 } UNION  # Soviet Union
  { ?school wdt:P17 wd:Q159 }.         # Russia
  ?school wdt:P802 ?student.
  SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}

GROUP BY ?school ?schoolLabel

SPARQL-запрос, 43 объекта, то есть 43 отечественных школы с известными учениками.

Построим линейную диаграмму количества известных выпускников каждой такой школы:

 
Линейная диаграмма количества известных выпускников российских школ, представленных на Викиданных

Диаграмма выше показывает разбиение школ на три группы: один известный выпускник (пять школ), два известных выпускника (36 школ) и три известных выпускника (одна школа: школа №1212).

Получим карту российских школ с известными выпускниками с помощью представленного ниже скрипта:

SELECT ?school ?location WHERE {
  #the object is the school
  ?school wdt:P31 wd:Q3914.
  { ?school wdt:P17 wd:Q34266 } UNION  # Russian Empire
  { ?school wdt:P17 wd:Q15180 } UNION  # Soviet Union
  { ?school wdt:P17 wd:Q159 }.         # Russia
  ?school wdt:P802 ?student.
  ?school wdt:P625 ?location.
  SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}
 
Карта расположения российских школ с заполненным свойством "известные выпускники"

На карте, представленной выше, можно увидеть, что основные скопления таких школ присутствуют в Москве и Санкт-Петербурге, есть также приличное количество близ Ростова-на-Дону.

Построим итоговый запрос для получения списка отечественных школ без известных учеников:

#russian schools with empty property "student"
SELECT ?school ?schoolLabel WHERE {
  ?school wdt:P31 wd:Q3914.  #school
  ?school wdt:P17 wd:Q159.   #russian schools
  FILTER NOT EXISTS { ?school wdt:P802 []}  #empty property "student"
  SERVICE wikibase:label { bd:serviceParam wikibase:language "ru" }
}

SPARQL-запрос, 41 объект.

Будущая работа

править
  1. Вывести название страны с наибольшим числом школ, имеющих логотип.
  2. Вывести карту с отмеченными на ней школами, существующими уже более 200 лет.
  3. Построить граф доменных зон официальных веб-сайтов школ.

Упражнения

править

1 В каком году были основаны следующие школы России?

1995 1999 1786
Державинский лицей
Школа имени Горчакова
Классическая гимназия № 1 имени В. Г. Белинского

2 Какая из данных школ имеет наибольшее число известных выпускников, представленных на Викиданных?

Школа №1212
Гимназия имени А. П. Чехова
Гимназия № 36 (Ростов-на-Дону)

3 Введите название страны, в которой находится больше всего школ.


SPARQL-запросы с ответами:

См. также

править

Примечания

править

Ссылки

править

Литература

править
  • Thomas D. Snyder Digest of Education Statistics(англ.) // Digest of Education Statistics 2011 : книга. — США: u.s. department of education, 2011. — С. 61.