Компьютерные технологии обработки данных статистической информации

Информационные технологии систематизации и исследования художественных текстов

Для исследования текстов может использоваться компьютерная система ЛинДа, [1] в которой решаются следующие задачи:

а) первичная обработка лингвистических данных (построение рядов распределения, вычисление статистик, статистических оценок, проверка статистических гипотез и др.);

б) лексикографическая обработка текстовых данных: создание частотных и алфавитно-частотных словарей, словарей-конкордансов, словоуказателей, обратных словарей, словарей ключевых слов и т.п.;

в) информационно-поисковые задачи, включая:

поиск текстовых единиц, обладающих определенным набором количественных и качественных характеристик для решения стилистических и грамматических проблем;

автоматический поиск текстов (авторский, жанровый, историко-хронологический, библиографический и др.);

г) систематико-таксономические задачи:

обработка многомерных данных с использованием стандартных алгоритмических процедур (факторного, дискриминантного, кластерного и др. методов многомерного анализа);

обработка лингвистических данных с помощью специальных лингвистических методов (дешифровочных алгоритмов, дистрибутивно-статистического метода, методов датировки, атрибуции, диагностики и типологии текстов и др.);

д) теоретико-статистические исследования: изучение статистических закономерностей в символьных последовательностях, изучение проблем устойчивости и вариативности лингвостатистических чисел, проблемы однородности текстов, условий действия закона больших чисел, оптимизация выборочных исследований и др. [Гринбаум, Мартыненко, Фитиалов, 1988].

Текст и корпус как статистическая совокупность

Источник

Текст - не умозрительная сущность, не как текст вообще, а как реально наблюдаемый текст
При этом текст является "сложной единичностью", состоящая из множества элементов и индивидов.
При интерпретации текста как статистической совокупности возникает затруднение, связанное с чрезвычайно высокой вариативностью объема текста.
Помимо текста в качестве объект исследования может выступать и совокупность (или корпус) произведений одного автора при условии их принадлежности к одному жанру.

Лингвополиграфический подход к структуре текста

Текст как статистическая совокупность может быть охарактеризован через множество переменных (варьирующих признаков), присущих единицам данной совокупности.
Симптоматический характер филолого-статистических переменных особенно проявляется в компьютерной среде.
В компьютерной среде в значительной мере утрачивается комплексность традиционной филологии, и в то же время обретаются возможности для единообразной и быстрой обработки печатного текста.

Формирование онтологии и ее структура

Одной из актуальных задач, решаемых при использовании компьютерных технологий является создание антологий. Примером может являться компьютерная Антология русского рассказа XX века.

Важную роль в формировании концепции компьютерной антологии русского рассказа XX века сыграли идеи Андрея Белого, касающиеся необходимости массового создания словарей писателей, классификационные представления В.В.Виноградова, предлагавшего строить лингвистические аналоги литературных школ, направлений, стилей на основании критерия лингвистической близости произведений различных авторов, а также предложенный В.М.Жирмунским способ описания мировосприятия писателя через совокупность “словесных тем”.

Отбор авторов и их произведений, подлежащих включению в Антологию, осуществляется на основании энциклопедической информации о персоналиях (например, [Краткая литературная энциклопедия, 1978]), существующих библиографических указателей (например, [Русские писатели, 1998]), антологий русского рассказа и сборников рассказов (например, [Книга рассказов, 1910]), публикаций в авторитетных периодических изданиях.

В соответствии со сказанным выше, статистико-лексикографический анализ каждой эпохи осуществляется в двух направлениях: с одной стороны, мы стремимся включить в базу данных тексты максимального числа авторов, что делает исследование более объективным, а с другой стороны, нами не игнорируется традиционный филологический интерес к произведениям знаменитых писателей, что позволяет получить обобщенную статистическую картину языка конкретных писателей.

С точки зрения статистики первое направление формирования выборочного корпуса может быть проинтерпретировано как двухступенчатый отбор, состоящий из практически сплошного отбора авторов с последующим включением в выборку всех лексических единиц одного и более произведений, отобранных в случайном порядке, т.е. пр существу мы здесь имеем дело с модификацией серийного отбора, причем в качестве генеральной совокупности выступает общее число лексических единиц, относящихся ко всем рассказам, написанным в данную эпоху; в качестве генеральных серий выступают множества рассказов, принадлежащих каждому автору, а в качестве выборки – все лексические единицы, относящиеся к совокупности отобранных рассказов.

Во втором варианте лексико-статистических исследований в качестве генеральной совокупности выступают все лексические единицы, относящиеся ко всему множеству рассказов данного автора, а к выборочной совокупности – множество лексических единиц, принадлежащих множеству текстов, отобранных в случайном порядке.

Статистическое описание текста и корпуса

Для каждого хронологического среза и для ряда авторов строится система частотных словарей (собственно частотных, частотно-распределительных, ассоциативно-частотных, словарей-конкордансов и т.п.), которые затем преобразуются в статистические распределения: статистические – для каждого хронологического среза и динамические – для последовательности хронологических срезов.

Частотный словарь представляет собой лексикографическое произведение, в котором каждая словарная статья содержит имя лексической единицы (словоформы или лексемы) в сопровождении различного рода статистических данных: частота этой единицы, количество единиц с данной частотой, ранга лексической единицы и т.п. На основании информации, содержащейся в частотном словаре, могут быть построены статистические распределения определенного типа в зависимости от того, какая информация используется в качестве зависимой или независимой переменной.

Для перечисленных распределений лексико-статические измерения осуществляются в определенной шкале: номинально-частотной (для полиномиально распределения), частотно-частотной (спектровое распределение), ординально-частотной (ранговое распределение). Каждому типу шкалы соответствует своя система описания и обобщения данных, в частности своя система обобщающих показателей. Назовем некоторые их них. Для номинально-частотной шкалы: мода (слово с наибольшей частотой), энтропия, максимальная при данном объеме словаря энтропия, мера упорядоченности – отношение энтропии к максимальной энтропии; для частотно-частотной шкалы: средняя частота, средняя геометрическая частота, медиана, золотое сечение; для ранговой шкалы: ранговое среднее, медиана по рангу, золотое сечение по рангу, коэффициент концентрации (отношение рангового среднего к объему словаря).

Ссылки

Источник