Компьютерные технологии обработки данных/Компьютерные технологии обработки данных статистической информации

Информационные технологии систематизации и исследования текстов

Примером программы для исследования текстов (в данном случае русскоязычных) является компьютерная система ЛинДа, [1] в которой решаются следующие задачи:

а) первичная обработка лингвистических данных (построение рядов распределения, вычисление статистик, статистических оценок, проверка статистических гипотез и др.);

б) лексикографическая обработка текстовых данных: создание частотных и алфавитно-частотных словарей, словарей-конкордансов, словоуказателей, обратных словарей, словарей ключевых слов и т.п.;

в) информационно-поисковые задачи, включая:

поиск текстовых единиц, обладающих определенным набором количественных и качественных характеристик для решения стилистических и грамматических проблем;

автоматический поиск текстов (авторский, жанровый, историко-хронологический, библиографический и др.);

г) систематико-таксономические задачи:

обработка многомерных данных с использованием стандартных алгоритмических процедур (факторного, дискриминантного, кластерного и др. методов многомерного анализа);

обработка лингвистических данных с помощью специальных лингвистических методов (дешифровочных алгоритмов, дистрибутивно-статистического метода, методов датировки, атрибуции, диагностики и типологии текстов и др.);

д) теоретико-статистические исследования: изучение статистических закономерностей в символьных последовательностях, изучение проблем устойчивости и вариативности лингвостатистических чисел, проблемы однородности текстов, условий действия закона больших чисел, оптимизация выборочных исследований и др. [Гринбаум, Мартыненко, Фитиалов, 1988].

Текст и корпус как статистическая совокупность

Источник

Текст - не умозрительная сущность, не как текст вообще, а как реально наблюдаемый текст
При этом текст является "сложной единичностью", состоящая из множества элементов и индивидов.
При интерпретации текста как статистической совокупности возникает затруднение, связанное с чрезвычайно высокой вариативностью объема текста.
Помимо текста в качестве объект исследования может выступать и совокупность (или корпус) произведений одного автора при условии их принадлежности к одному жанру.

Лингвополиграфический подход к структуре текста

Текст как статистическая совокупность может быть охарактеризован через множество переменных (варьирующих признаков), присущих единицам данной совокупности.
Симптоматический характер филолого-статистических переменных особенно проявляется в компьютерной среде.
В компьютерной среде в значительной мере утрачивается комплексность традиционной филологии, и в то же время обретаются возможности для единообразной и быстрой обработки печатного текста.

Статистическое описание текста и корпуса

Система частотных словарей (собственно частотных, частотно-распределительных, ассоциативно-частотных, словарей-конкордансов и т.п.) может строится для каждого хронологического среза и, например, для ряда авторов, которые затем преобразуются в статистические распределения: статистические – для каждого хронологического среза и динамические – для последовательности хронологических срезов.

Частотный словарь представляет собой лексикографическое произведение, в котором каждая словарная статья содержит имя лексической единицы (словоформы или лексемы) в сопровождении различного рода статистических данных: частота этой единицы, количество единиц с данной частотой, ранга лексической единицы и т.п. На основании информации, содержащейся в частотном словаре, могут быть построены статистические распределения определенного типа в зависимости от того, какая информация используется в качестве зависимой или независимой переменной.

Для перечисленных распределений лексико-статические измерения осуществляются в определенной шкале: номинально-частотной (для полиномиально распределения), частотно-частотной (спектровое распределение), ординально-частотной (ранговое распределение). Каждому типу шкалы соответствует своя система описания и обобщения данных, в частности своя система обобщающих показателей. Назовем некоторые их них. Для номинально-частотной шкалы: мода (слово с наибольшей частотой), энтропия, максимальная при данном объеме словаря энтропия, мера упорядоченности – отношение энтропии к максимальной энтропии; для частотно-частотной шкалы: средняя частота, средняя геометрическая частота, медиана, золотое сечение; для ранговой шкалы: ранговое среднее, медиана по рангу, золотое сечение по рангу, коэффициент концентрации (отношение рангового среднего к объему словаря).

Ссылки

Источник