Информационные технологии в филологии/Обработка эмпирической информации

Введение

править

На занятии рассматриваются следующие вопросы

  1. Поиск информации в Интернете
  2. Обработка эмпирической информации.
  3. Вторичная обработка первичной эмпирической информации.
  4. Автоматизированные системы обработки текстовой информации.

В связи с большим объемом информации, рекомендуется использовать в первую очередь материал, вынесенный в основную часть. Дополнительным материалом рекомендуется пользоваться для самостоятельной углубленной проработки материала вне аудитории.

Поиск информации в Интернете

править

Информацио́нный по́иск — процесс поиска неструктурированной документальной информации.

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам.

В общем случае поиск информации состоит из четырех этапов:

  • определение (уточнение) информационной потребности и формулировка информационного запроса;
  • определение совокупности возможных держателей информационных массивов (источников);
  • извлечение информации из выявленных информационных массивов;
  • ознакомление с полученной информацией и оценка результатов поиска.

Поиско́вая систе́ма — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете.

Поисковая машина (поиско́вый движо́к) — комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой системы.

По данным компании Net Applications[1] в апреле 2010 года использование поисковых систем на Западе распределялось следующим образом:

  • Google — 86,30 %
  • Yahoo — 5,30 %
  • Bing — 3,13 %
  • Baidu — 3,45 %

В РФ используются отечественные поисковые системы, такие как, например, Яндекс, Рамблер или Nigma

"Информационные проекты в области филологии должны быть направлены не столько на публикацию электронных версий своих трудов учеными, сколько на создание инновационного продукта, научных информационно-телекоммуникационных систем и сетей, унифицированной системы научных знаний и технологий, а также, как это вытекает из позиции РГНФ, на создание некоторых элементов искусственного интеллекта при построении экспертных систем и баз знаний, информационных сетей коллективного пользования с уникальными научными ресурсами." [1]

Среди филологических проектов следует отметить

  • Машинный фонд русского языка [2]
  • Специализированные поисковые системы [3]

Язык запросов

Обработка эмпирической информации.

править

Литературное наследие, являясь культурно-исторической информацией, составляет важную часть национального информационного ресурса.

  • Эмпирической информацией для филолога является текст.

Текст (письменный и устный) - первичная данность всего гуманитарно-филологического мышления.[4]

  • Текст может быть представлен в виде:
    • книги,
    • журнального текста
    • электронного (оцифрованного) текста.

"Специалисты-филологи и студенты-гуманитарии, какими бы конкретными вопросами они ни занимались, тратят значительную часть своего времени на поиск необходимых изданий и релевантных текстовых сегментов, на составление и проверку библиографических описаний, на многократное переписывание цитат, всевозможные сортировки и т.д. Речь идет о стандартных процессах, выполняемых вручную любым исследователем — даже частичная их автоматизация облегчает и упрощает оперирование текстами. Филологический труд становится более продуктивным: скорость выполнения рутинных процедур повышается в десятки раз, и в результате высвобождается время для активной творческой работы" [5].

Полученная в ходе предварительного отбора информация называется первичной. Она не позволяет установить те зависимости, которые кладутся в основу филологических выводов.

Поэтому эта информация нуждается в трансформировании во вторичную информацию - эта информация может быть представленную в виде каких либо показателей или даже таблиц и графиков.

Для использования информационных технологий желательно печатный текст перевести в цифровой формат.