Компьютерные технологии обработки данных/Компьютерные технологии обработки данных статистической информации
Информационные технологии систематизации и исследования текстов
правитьПримером программы для исследования текстов (в данном случае русскоязычных) является компьютерная система ЛинДа, [1] в которой решаются следующие задачи:
а) первичная обработка лингвистических данных (построение рядов распределения, вычисление статистик, статистических оценок, проверка статистических гипотез и др.);
б) лексикографическая обработка текстовых данных: создание частотных и алфавитно-частотных словарей, словарей-конкордансов, словоуказателей, обратных словарей, словарей ключевых слов и т.п.;
в) информационно-поисковые задачи, включая:
поиск текстовых единиц, обладающих определенным набором количественных и качественных характеристик для решения стилистических и грамматических проблем;
автоматический поиск текстов (авторский, жанровый, историко-хронологический, библиографический и др.);
г) систематико-таксономические задачи:
обработка многомерных данных с использованием стандартных алгоритмических процедур (факторного, дискриминантного, кластерного и др. методов многомерного анализа);
обработка лингвистических данных с помощью специальных лингвистических методов (дешифровочных алгоритмов, дистрибутивно-статистического метода, методов датировки, атрибуции, диагностики и типологии текстов и др.);
д) теоретико-статистические исследования: изучение статистических закономерностей в символьных последовательностях, изучение проблем устойчивости и вариативности лингвостатистических чисел, проблемы однородности текстов, условий действия закона больших чисел, оптимизация выборочных исследований и др. [Гринбаум, Мартыненко, Фитиалов, 1988].
Текст и корпус как статистическая совокупность
править- Текст - не умозрительная сущность, не как текст вообще, а как реально наблюдаемый текст
- При этом текст является "сложной единичностью", состоящая из множества элементов и индивидов.
- При интерпретации текста как статистической совокупности возникает затруднение, связанное с чрезвычайно высокой вариативностью объема текста.
- Помимо текста в качестве объект исследования может выступать и совокупность (или корпус) произведений одного автора при условии их принадлежности к одному жанру.
Лингвополиграфический подход к структуре текста
править- Текст как статистическая совокупность может быть охарактеризован через множество переменных (варьирующих признаков), присущих единицам данной совокупности.
- Симптоматический характер филолого-статистических переменных особенно проявляется в компьютерной среде.
- В компьютерной среде в значительной мере утрачивается комплексность традиционной филологии, и в то же время обретаются возможности для единообразной и быстрой обработки печатного текста.
Статистическое описание текста и корпуса
правитьСистема частотных словарей (собственно частотных, частотно-распределительных, ассоциативно-частотных, словарей-конкордансов и т.п.) может строится для каждого хронологического среза и, например, для ряда авторов, которые затем преобразуются в статистические распределения: статистические – для каждого хронологического среза и динамические – для последовательности хронологических срезов.
Частотный словарь представляет собой лексикографическое произведение, в котором каждая словарная статья содержит имя лексической единицы (словоформы или лексемы) в сопровождении различного рода статистических данных: частота этой единицы, количество единиц с данной частотой, ранга лексической единицы и т.п. На основании информации, содержащейся в частотном словаре, могут быть построены статистические распределения определенного типа в зависимости от того, какая информация используется в качестве зависимой или независимой переменной.
Для перечисленных распределений лексико-статические измерения осуществляются в определенной шкале: номинально-частотной (для полиномиально распределения), частотно-частотной (спектровое распределение), ординально-частотной (ранговое распределение). Каждому типу шкалы соответствует своя система описания и обобщения данных, в частности своя система обобщающих показателей. Назовем некоторые их них. Для номинально-частотной шкалы: мода (слово с наибольшей частотой), энтропия, максимальная при данном объеме словаря энтропия, мера упорядоченности – отношение энтропии к максимальной энтропии; для частотно-частотной шкалы: средняя частота, средняя геометрическая частота, медиана, золотое сечение; для ранговой шкалы: ранговое среднее, медиана по рангу, золотое сечение по рангу, коэффициент концентрации (отношение рангового среднего к объему словаря).