Информационные технологии в лингвистике/Обработка информации

Введение

На занятии рассматриваются следующие вопросы

Поиск информации в Интернете
Обработка эмпирической информации.
Вторичная обработка первичной эмпирической информации.
Автоматизированные системы обработки текстовой информации.

В связи с большим объемом информации, рекомендуется использовать в первую очередь материал, вынесенный в основную часть. Дополнительным материалом рекомендуется пользоваться для самостоятельной углубленной проработки материала вне аудитории.

Поиск информации в Интернете

Информацио́нный по́иск — процесс поиска неструктурированной документальной информации.

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам.

В общем случае поиск информации состоит из четырех этапов:

определение (уточнение) информационной потребности и формулировка информационного запроса;
определение совокупности возможных держателей информационных массивов (источников);
извлечение информации из выявленных информационных массивов;
ознакомление с полученной информацией и оценка результатов поиска.

Поиско́вая систе́ма — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете.

Поисковая машина (поиско́вый движо́к) — комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой системы.

По данным компании Net Applications[1] в апреле 2010 года использование поисковых систем на Западе распределялось следующим образом:

Google — 86,30 %
Yahoo — 5,30 %
Bing — 3,13 %
Baidu — 3,45 %

В РФ используются отечественные поисковые системы, такие как, например, Яндекс, Рамблер или Nigma

"Информационные проекты в области филологии должны быть направлены не столько на публикацию электронных версий своих трудов учеными, сколько на создание инновационного продукта, научных информационно-телекоммуникационных систем и сетей, унифицированной системы научных знаний и технологий, а также, как это вытекает из позиции РГНФ, на создание некоторых элементов искусственного интеллекта при построении экспертных систем и баз знаний, информационных сетей коллективного пользования с уникальными научными ресурсами." [1]

Среди лингвистических проектов следует отметить

Машинный фонд русского языка [2]
Поиск по библиотеке Мошкова [3]
Специализированные поисковые системы [4]
Каталог лингвистических программ и ресурсов в Cети [5]

Язык запросов

Дополнительный материал

Обработка эмпирической информации.

Эмпирической информацией для лингвиста является текст, либо другие исходные данные "изображение структуры текста", "алфавит символов и правила образования и преобразования фраз".[6]

Текст (письменный и устный) - первичная данность всего гуманитарно-филологического мышления.[7],[8]

Текст может быть представлен в виде:
- книги,
- журнального текста
- электронного (оцифрованного) текста.

Предварительным этапом анализа является нормализация текста (графематический анализ), приводящий исходный текст к каноническому виду. Являясь определенного рода текстовым препроцессором, графематический анализатор решает следующие задачи: удаление нетекстовых символов, разделение цепочки символов на слова, выделение цифр, чисел, дат, неизменяемых оборотов и сокращений, деление на предложения и абзацы. Результатом анализа является линейная последовательность слов, включая служебные (знаки препинания, метки конца предложения).

Полученная в ходе предварительного отбора информация называется первичной. Она не позволяет установить те зависимости, которые кладутся в основу лингвистических выводов.

Поэтому эта информация нуждается в трансформировании во вторичную информацию - эта информация может быть представленную в виде каких либо показателей или даже таблиц и графиков.

Для использования информационных технологий желательно печатный текст перевести в цифровой формат.

После этого возможно провести 'Графематический анализ. При этом возможно использование компьютерных программ [9].

Графематический анализ (далее графематика) - достаточно простая программа, выполняющая первые предварительные действия над текстом. На вход графематике подается текст в кодировке (например Windows,) на выходе программой строится графематическая таблица, в которой на каждой строке стоит слово или разделитель из входного текста. Программа выделяет некоторые аббревиатуры, имена с инициалами, даты и пр. Кроме деления текста на слова, графематика разбивает текст на абзацы и предложения (макросинтаксический анализ).

Графематическая таблица состоит из двух столбцов. В первом столбце стоит некоторый кусок входного текста (выделенный по правилам, о которых мы скажем ниже), во втором столбце стоят графематические дескрипторы, характеризующие этот кусок текста. Например, для текста "Иван спал" будет построена таблица из трех строк

Кусок входного текста	Графематические дескрипторы
Иван	ЛЕ Бб ПРД1
-	РЗД ПРБ
спал	ЛЕ бб ПРД2

Дополнительный материал.

Вторичная обработка первичной эмпирической информации.

Анализ текста

Одним из важных моментов анализа является многоуровневость представления структуры анализируемого текста. Используется следующая иерархия уровней:

исходный текст как линейная последовательность символов;
линейная последовательность морфологических структур;
линейная последовательность высказываний;
сеть взаимосвязанных МФЕ.

Соседние уровни явно связаны друг с другом, и на различных этапах анализа все уровни сохраняются, что позволяет воспользоваться информацией с любого уровня представления.

После проведения предварительного этапа проводится вторичная обработка.

Морфологический анализ решает частную задачу приведения всех слов к каноническому виду. Это первый этап анализа, в котором появляется явная многозначность, которая обусловлена совпадением морфологических структур у различных словоформ. Цель морфологического анализа состоит в получении основ, т.е. словоформ с отсечёнными окончаниями. Причём каждой словоформе ставится в соответствие значения грамматических категорий, т.е. совокупности грамматических значений (род, падеж, склонение и т.д.) Результатом является линейная последовательность морфологических структур, каждая из которых может иметь несколько вариантов.

Семантический анализ предполагает наличие естественно-семантического словаря. Входами такого словаря являются. Точность семантического анализа целиком определяется полнотой и корректностью семантического словаря. Следует отметить, что здесь под семантическим анализом понимается лингвистический семантический анализ, т.е. слова ЕЯ соотносятся с некоторыми «семантическими классами», которые никак не соотносятся с реальным миром.

На этапе семантического анализа происходит отбор нужных для данного предложения морфосемантических альтернатив и связывание слов в единую структуру. Результатом семантического анализа предложений является упорядоченное множество записей суперпозиций из базисных функций (лексических функций в терминологии модели «Смысл↔Текст») и семантических классов (базовых понятий) [1, 8]. Часть семантических классов в лингвистической формуле может оказаться незаполненными, что может объясняться неполнотой исходного предложения или наличием референций. Исходный порядок морфем не сохраняется, однако сохраняется линейность текста, который на этом этапе представляется как последовательность предложений на семантическом языке.

Дополнительный материал.

Автоматизированные системы обработки лингвистической информации.

Проблема обработки огромного количества информации имеет два аспекта:

это автоматический сбор информации
автоматический разбор поступившей информации по данной тематике, проведенный на основе анализа текста документа.

Автоматизированные системы обработки информации могут использоваться:

для предварительной обработки информации;
для статистической обработки информации;
для контент анализа текстовой информации

Система TextAnalyst

Программа разработана в Московском научно-производственном инновационном центре «МикроСистемы». TextAnalyst используется в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов.

Возможности системы

Система TextAnalyst позволяет осуществлять [10]:

Выявление смысла текста.
Точное изложение текстового материала.
Исследование текстов по заданной тематике.
Эффективную навигацию по текстовой базе.
Пояснение структуры основы текста.
Кластеризацию текстов.
Семантический поиск информации.

Программы автоматической обработки текста

Рабочая группа Aot.ru разрабатывает программное обеспечение в области автоматической обработки текста. В круг наших интересов в основном входит анализ русского языка.[11]

Морфология Пользователь вводит русскую, английскую или немецкую словоформу и получает нормальную форму и морфологические атрибуты либо, по желанию, всю парадигму слова.

Синтаксис Пользователь вводит предложение на русском языке и получает результаты анализа поверхностного синтаксиса в виде системы составляющих

Граф По одному предложению на русском языке строится поверхностно семантический граф.

Перевод Перевод с русского языка на английский. Используются результаты графематического, морфологического и синтаксического анализаторов.

Поиск по массиву Лингвистический поиск по размеченному морфологическим анализатором массиву. Можно искать по части речи и по морф. характеристикам. Размеченный корпус состоит из 680 миллионов слов.

Поиск по биграммам Поиск по леммным биграммам (54 млн. ). Леммы получены с помошью программы Trigram

Блок демопрограммы

Дополнительный материал.

Практика

На своей личной странице в модуле занятие, на основе информации, найденной самостоятельно в интернете, дайте ответы на следующие вопросы: (Для поиска информации можно использовать различные поисковые системы).

Виды поиска,
Что такое поисковый индекс?
Какую поисковую систему по данным компании Net Applications в апреле 2010 года использовали 3,45 % пользователей.
Перечислите отечественные поисковые системы.
Приведите примеры локальные поисковых утилит.
Какие функции выполняет программа ЛВС searcher_word?
Какие функции выполняет программа ЛВС searcher_synonym?
Какие функции выполняет программа ЛВС searcher_index?
Для чего используются знаки "+" и "-" в языке запросов?
В каком виде может быть представлен текст?
Какая информация называется первичной?
Что называется полем знаний?
Что отражает функциональная структура предметной области?
В каких целях могут использоваться автоматизированные системы обработки информации?
Какая система может использоваться в качестве инструмента для формирования электронных архивов?
Что такое графематический анализ?