Обработка информации

Введение

На занятии рассматриваются следующие вопросы

Поиск информации в Интернете
Обработка эмпирической информации.
Вторичная обработка первичной эмпирической информации.
Автоматизированные системы обработки текстовой информации.

В связи с большим объемом информации, рекомендуется использовать в первую очередь материал, вынесенный в основную часть. Дополнительным материалом рекомендуется пользоваться для самостоятельной углубленной проработки материала вне аудитории.

Поиск информации в Интернете

Информацио́нный по́иск — процесс поиска неструктурированной документальной информации.

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам.

В общем случае поиск информации состоит из четырех этапов:

определение (уточнение) информационной потребности и формулировка информационного запроса;
определение совокупности возможных держателей информационных массивов (источников);
извлечение информации из выявленных информационных массивов;
ознакомление с полученной информацией и оценка результатов поиска.

Поиско́вая систе́ма — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете.

Поисковая машина (поиско́вый движо́к) — комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой системы.

По данным компании Net Applications[1] в апреле 2010 года использование поисковых систем на Западе распределялось следующим образом:

Google — 86,30 %
Yahoo — 5,30 %
Bing — 3,13 %
Baidu — 3,45 %

В РФ используются отечественные поисковые системы, такие как, например, Яндекс, Рамблер или Nigma

"Информационные проекты в области филологии должны быть направлены не столько на публикацию электронных версий своих трудов учеными, сколько на создание инновационного продукта, научных информационно-телекоммуникационных систем и сетей, унифицированной системы научных знаний и технологий, а также, как это вытекает из позиции РГНФ, на создание некоторых элементов искусственного интеллекта при построении экспертных систем и баз знаний, информационных сетей коллективного пользования с уникальными научными ресурсами." [1]

Среди филологических проектов следует отметить

Машинный фонд русского языка [2]
Специализированные поисковые системы [3]

Язык запросов

Дополнительный материал

Обработка эмпирической информации.

Литературное наследие, являясь культурно-исторической информацией, составляет важную часть национального информационного ресурса.

Эмпирической информацией для филолога является текст.

Текст (письменный и устный) - первичная данность всего гуманитарно-филологического мышления.[4]

Текст может быть представлен в виде:
- книги,
- журнального текста
- электронного (оцифрованного) текста.

"Специалисты-филологи и студенты-гуманитарии, какими бы конкретными вопросами они ни занимались, тратят значительную часть своего времени на поиск необходимых изданий и релевантных текстовых сегментов, на составление и проверку библиографических описаний, на многократное переписывание цитат, всевозможные сортировки и т.д. Речь идет о стандартных процессах, выполняемых вручную любым исследователем — даже частичная их автоматизация облегчает и упрощает оперирование текстами. Филологический труд становится более продуктивным: скорость выполнения рутинных процедур повышается в десятки раз, и в результате высвобождается время для активной творческой работы" [5].

Полученная в ходе предварительного отбора информация называется первичной. Она не позволяет установить те зависимости, которые кладутся в основу филологических выводов.

Поэтому эта информация нуждается в трансформировании во вторичную информацию - эта информация может быть представленную в виде каких либо показателей или даже таблиц и графиков.

Для использования информационных технологий желательно печатный текст перевести в цифровой формат.

Дополнительный материал.

Вторичная обработка первичной эмпирической информации.

Вторичная обработка первичной эмпирической информации по своей сути означает структурирование знаний.

СТРУКТУРИРОВАНИЕ ЗНАНИИ • Концептуальная структура предметной области • Функциональная структура предметной области • Формализация и программная реализация базы знаний

КОНЦЕПТУАЛЬНАЯ СТРУКТУРА ПРЕДМЕТНОЙ ОБЛАСТИ Одна из наиболее творческих процедур при построении экспертных систем — процедура концептуального анализа полученных знаний или структурирование. Структурирование — это процесс создания полуформализованного описания предметной области. Такое полуформализованное описание называется полем знаний. Обычно оно создается в графической форме. Поле знаний Pz можно описать следующим образом: Pz = <Sk,Sf>, где Sk — концептуальная структура предметной области; Sf — функциональная структура предметной области. Концептуальная структура, или модель предметной области, служит для описания ее объектов и отношений между ними, т.е. можно сказать, что концептуальная модель Sk представляет собой следующее: Sk = <A,R>, где А — множество объектов предметной области; R — множество отношений, связывающих объекты.

ФУНКЦИОНАЛЬНАЯ СТРУКТУРА ПРЕДМЕТНОЙ ОБЛАСТИ Функциональная структура отражает модель рассуждений и принятия решений, которой пользуется эксперт при решении задачи. Обычно функциональная структура представляется в виде каузальных отношений и может быть позднее формализована в виде коротких правил "если — то" (В виде семантических сетей. Представить функциональную структуру можно в виде таблицы, графа или предложений на естественном языке. Наглядные формы предпочтительны. Часто в моделях рассуждений присутствуют нечеткие понятия — "часто", "много", "очень", "высокий", "большой" и др. Для их представления базе знаний используется так называемая нечеткая логика, автор которой — Л.Заде, предложил простой формализм для таких понятий. Этот формализм использует понятие нечеткой функции принадлежности, которая отражает численно на шкале [0, 10] или [О, 1] степень уверенности эксперта в том, что конкретное значение можно отнести к данному нечеткому понятию. Также степени уверенности используются при множественных рекомендациях. Например, эксперт советует "покупать акции компании X со степенью уверенности 9, а компании Y со степенью уверенности 6".

ФОРМАЛИЗАЦИЯ И ПРОГРАММНАЯ РЕАЛИЗАЦИЯ БАЗЫ ЗНАНИЙ Сформировав поле знаний в виде концептуальной и функциональной структур, инженер по знаниям вместе с программистом подыскивают подходящий язык представления знаний, который, с одной стороны, позволит выразить все особенности знаний предметной области без искажения структуры поля знаний, а с другой, — будет иметь эффективную программную реализацию в виде транслятора или "оболочки"

Дополнительный материал.

Автоматизированные системы обработки текстовой информации.

Проблема обработки огромного количества информации имеет два аспекта:

это автоматический сбор информации
автоматический разбор поступившей информации по данной тематике, проведенный на основе анализа текста документа.

Автоматизированные системы обработки информации могут использоваться:

для предварительной обработки информации;
для статистической обработки информации;
для контент анализа текстовой информации.

Система Ваал

Система ВААЛ разрабатывается с 1992 года и позволяет прогнозировать эффект неосознаваемого воздействия текстов на массовую аудиторию, анализировать тексты с точки зрения такого воздействия, составлять тексты с заданным вектором воздействия, выявлять личностно-психологические качества авторов текста, проводить углубленный контент-анализ текстов и делать многое другое.

Области возможного применения

Составление текстов выступлений с заранее заданными характеристиками воздействия на потенциальную аудиторию. Активное формирование эмоционального отношения к политическому деятелю со стороны различных социальных групп. Составление эмоционально окрашенных рекламных статей. Поиск наиболее удачных названий и торговых марок. Психо- и гипнотерапия. Неявное психологическое тестирование и экспресс-диагностика. Создание легких в усвоении учебных материалов. Научные исследования в области психолингвистики и смежных с нею дисциплинах. Журналистика и другие сферы деятельности, использующие в качестве инструмента СЛОВО. Социологические и социолингвистические исследования. Информационные войны. Контент-анализ текстов. Мониторинг СМИ.

Система позволяет

Оценивать неосознаваемое эмоциональное воздействие фонетической структуры текстов и отдельных слов на подсознание человека. Генерировать слова с заданными фоносемантическими характеристиками. Оценивать неосознаваемое эмоциональное воздействие фонетической структуры текстов на подсознание человека. Задавать характеристики желаемого воздействия и целенаправленно корректировать тексты по выбранным параметрам в целях достижения необходимого эффекта воздействия. Оценивать звуко-цветовые характеристики слов и текстов. Производить словарный анализ текстов. Осуществлять полноценный контент-анализ текста по большому числу специально составленных встроенных категорий и категорий, задаваемых самим пользователем. Производить выделение тем, затрагиваемых в текстах, и осуществлять на основе этого автоматическую категоризацию. Производить эмоционально-лексический анализ текстов. Настраиваться на различные социальные и профессиональные группы людей, которые могут быть выделены по используемой ими лексике. Производить вторичный анализ данных путем их визуализации, факторного и корреляционного анализа.

Система TextAnalyst

Программа разработана в Московском научно-производственном инновационном центре «МикроСистемы». TextAnalyst используется в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов.

Возможности системы

Система TextAnalyst позволяет осуществлять [6]:

Выявление смысла текста.
Точное изложение текстового материала.
Исследование текстов по заданной тематике.
Эффективную навигацию по текстовой базе.
Пояснение структуры основы текста.
Кластеризацию текстов.
Семантический поиск информации.

Дополнительный материал.

Вопросы

На своей личной странице в модуле занятие, на основе информации, найденной самостоятельно в интернете, дайте ответы на следующие вопросы:

Виды поиска,
Что такое поисковый индекс?
Какую поисковую систему по данным компании Net Applications в апреле 2010 года использовали 3,45 % пользователей.
Перечислите отечественные поисковые системы.
Приведите примеры локальные поисковых утилит.
Какие функции выполняет программа ЛВС searcher_word?
Какие функции выполняет программа ЛВС searcher_synonym?
Какие функции выполняет программа ЛВС searcher_index?
Для чего используются знаки "+" и "-" в языке запросов?
В каком виде может быть представлен текст?
Какая информация называется первичной?
Что называется полем знаний?
Что отражает функциональная структура предметной области?
В каких целях могут использоваться автоматизированные системы обработки информации?
Какая система может использоваться в качестве инструмента для формирования электронных архивов?