Компьютерная лексикография

Теория

править

Введение

править

Данный курс предназначен для:

  • изучения теоретических вопросов компьютерной лексикографии;
  • освоения практических вопросов создания компьютерных словарей.

Лексикография

править

Лексикография (от гр. lexikon — словарь, grapho — пишу) изучает теорию и практику составления различных языковых словарей.

Теоретическая лексикография изучает вопросы разработки макроструктуры и микроструктуры словаря, разработку типологии словарей, историю развития лексикографии.

Макроструктура словаря определяет отбор лексики, объём и характер словника, принципы расположения материала.

Микроструктуры словаря определяет структуру словарной статьи, типы словарных определений, соотношение разных видов информации о слове, типы языковых иллюстраций.

Практическую лексикографию можно определить как процесс составлением словарей различных типов на базе теоретических разработок.

Этапы разработки словаря:

  1. Разработка системы требований, касающихся назначения и круга пользователей.
  2. Разработка системы требований, касающихся таких параметров словаря как единицы описания, объем, структуру, вид словарной информации.
  3. Отбор текстов, расписывание контекстов, характеристика грамматических форм, составление предварительных словников.
  4. Дистрибутивный анализ текстов, тесты с носителями языка.
  5. Обобщение экспериментальных данных.
  6. Построение дефиниций на соответствующем метаязыке и их проверка в ходе новых экспериментов.
  7. Сбор и систематизация дополнительной информации о каждой языковой единице.
  8. Оформление словарных статей.
  9. Системный анализ и упорядочение словарных статей.
  10. Оформление словаря.

Типы словарей

править

Рассматривая классификацию словарей следует учитывать, что разнообразие словарей объясняется сложностью самого объекта лексикографического описания — языка.

Практически нет никакой возможности дать в одном словаре всю в той или иной мере исчерпывающую информацию о языке, которая удовлетворила бы в равной степени все общество в целом и отдельные его слои и частности.

Это объясняет почему в любой национальной лексикографии реализуются десятки и сотни словарей самых разных типов.

Деление словарей на типы происходит по различным основаниям: в зависимости от цели словаря, его объема, порядка расположения в нем слов, объекта описания и т. д.

Попытки создания классификации словарей предпринимались многими лингвистами, в частности Л. В. Щербой, П. Н. Денисовым, Б. Кемадой, Я. Малкилом, Л. Згустой и др.

В лингвистике пока нет общепринятой типологии.

Можно выделить следующие типы словарей:

  • переводные,
  • толковые,
  • диалектные,
  • региональные,
  • словари сленга,
  • исторические,
  • неологизмов,
  • этимологические,
  • крылатых.

Кроме этого различают словари лингвистические и нелингвистические.

В лингвистических словарях собирают и описывают лексические единицы языка.

Особый подтип лингвистических словарей составляют идеографические словари, идущие от понятия (идеи) к выражению этого понятия в слове или словосочетании.

В нелингвистических словарях лексические единицы служат лишь отправной точкой для сообщения тех или иных сведений о предметах и явлениях вне языковой действительности.

Встречаются и промежуточные разновидности словарей.

Кроме того выделяют словари «общие» и «специальные».

Примерами общих лингвистических словарей могут служить обычные толковые и переводные словари, охватывающие с той или иной степенью полноты всю лексику, бытующую в общенародном употреблении.

Специальный лингвистический словарь разрабатывает какую-то одну область лексики, иногда достаточно широкую (например, фразеологический словарь, словарь иностранных слов), иногда же довольно узкую (например, словарь личных имен, даваемых новорожденным).

Общий нелингвистический словарь — энциклопедия.

Специальный нелингвистический словарь — это специальная (отраслевая) энциклопедия (медицинская, юридическая и т. д.), краткий словарь той или иной области знания, биографический словарь деятелей той или иной страны («Who is who»).

Толковым словарем называют такой словарь, главной задачей которого является толкование значений слов (и фразеологизмов) какого-либо языка средствами самого этого языка. Толкование дается с помощью логического определения концептуального значения, посредством подбора синонимов или в форме указания на грамматическое отношение к другому слову.

В некоторых толковых словарях значения слов раскрываются с помощью рисунков.

Эмоциональные, экспрессивные и стилистические коннотации указываются посредством специальных помет («formal», «colloq» и т. П.).

Отдельные значения могут иллюстрироваться примерами — типичными сочетаниями, в которых участвует данное слово.

В толковых словарях дают также грамматическую характеристику слова, указывая с помощью специальных помет на часть речи, грамматический род имени существительного, вид глагола и т. д. В той или иной мере указывается и произношение слова (например, в русских толковых словарях — ударение), иногда сообщаются и разные другие, добавочные сведения. Обычно толковые словари являются словарями современного литературного языка. Некоторые из них носят строго нормативный характер — отбирают только факты, полностью соответствующие литературной норме, рекомендуют эти факты как единственно «правильные» и отсекают все, что хотя бы немного отклоняется в сторону просторечья (академический словарь французского языка — Dictionnaire de I'Academie Franзaise).

Для многих других толковых словарей характерно более широкое понимание литературного языка и, соответственно, включение в словарь разговорной и даже просторечной лексики (кроме лишь узко-областных, диалектных, узкопрофессиональных и сугубо арготических элементов).

Главная задача толкового словаря – истолковать значение слов и их применение в речи, отграничить правильное от неправильного, показать связь слов со стилями языка, дать читателю сведения об особенностях падежных, родовых, залоговых, видовых и иных грамматических форм слова; попутно указывается, как слова пишутся и произносятся.

Переводные словари, чаще всего они являются двуязычными (скажем, русско-английский и англо-русский), а иногда многоязычные. Данный тип словарей используется при изучения иностранные языки, при переводе текстов с одного языка на другой. В переводных словарях вместо толкования значений на том же языке даются переводы этих значений на другой язык, например, накалиться – become heated, назойливый – importunate, troublesome. В зависимости от того, предназначен ли словарь как пособие при чтении (слушании) текста на чужом языке, или как пособие при переводе с родного языка на чужой, его желательно строить по-разному. Так, русско-английский словарь для англичан может давать меньше сведений в английской части, чем их дает русско-английский словарь, предназначенный для русских. Переводный словарь должен содержать стилистические пометы.

Перевод слов всегда представляет большую трудность, т.к. объем значения слова в разных языках часто не совпадает, переносные значения в каждом языке развивается по-своему. Переводные словари могут быть двуязычными (русско-французский, англо-русский и т.п.) и многоязычными.

К общим словарям относятся словари, рассматривающие лексику под каким-либо специфическим углом зрения. Например словообразовательные (деривационные) словари, указывающие членение слов на составляющие их элементы — морфологический составе слова.

Этимологические словари (одного языка или группы родственных языков), содержащие сведения о происхождении и первоначальной мотивировке слов. Краткие этимологические словари обыкновенно ограничиваются приведением для каждого слова одной этимологии, представляющейся автору словаря наиболее вероятной. Полные словарях, как правило, приводятся соответствия в родственных языках и излагаются «контроверзы», т. е. споры ученых, касающиеся этимологии тех или иных слов, даются краткие сводки предложенных гипотез и их критическая оценка.

От этимологических словарей следует отличать исторические словари, которые, в свою очередь, представлены двумя разновидностями.

  • В словарях относящихся к первой группе некоторых из них ставится цель — проследить эволюцию каждого слова и его отдельных значений на протяжении письменно засвидетельствованной истории соответствующего языка, обычно вплоть до современности.
  • Ко второй разновидности исторических словарей следует отнести словари древних периодов истории соответствующего языка.

Особое место занимают диалектологические, или диалектные словари. Диалектный словарь может быть дифференциальным, т.е. содержащим только диалектную лексику, отличающуюся от общенародной, либо полным, охватывающим всю лексику, бытующую в диалектной речи — как специфическую для данного диалекта, так и совпадающую с лексикой общенародного языка.

Сравнительно новый тип словарей — частотные словари. Их задача — показать сравнительную частоту употребления слов языка в речи. Частотные словари позволяют делать очень интересные выводы о функционировании в речи слов и грамматических категорий языка.

Чисто практические цели преследуют орфографические и орфоэпические словари, указывающие «правильное» (т. е. отвечающее принятой норме) написание слов и их форм и, соответственно, «правильное» произношение.

Среди специальных лингвистических словарей большой интерес представляют различные фразеологические словари. Они бывают переводными (например, англо-русский фразеологический словарь А. В. Кунина) и одноязычными, дающими толкование значений фразеологизмов средствами того же самого языка. Разновидностью фразеологических словарей являются словари «крылатых слов», т. Е. ходовых цитат из литературных произведений, афоризмов знаменитых людей и др. фразеологизмов, главным образом книжного употребления, имеющих литературный источник. Особую разновидность фразеологических словарей составляют словари народных пословиц и поговорок.

Из других специальных лингвистических словарей выделяются словари синонимов, антонимов, омонимов, иностранных слов, словари сокращений, различные словари имен собственных, словари рифм.

Особую группу составляют лингвистические справочные словари, в которых дается не объяснение значения слова или особенностей его употребления и происхождения, а приводятся различного рода справки о слове как языковой единице. Словарь иностранных слов дает краткое объяснение значений и происхождения иноязычных слов, указывает язык-источник (последнее обстоятельство сближает словари иностранных слов с этимологическими). Словари неологизмов описывают слова, значения слов или сочетания слов, появившиеся в определенный период времени или употребленные только один раз (окказионализмы). В развитых языках количество неологизмов, зафиксированных в газетах и журналах в течение одного года, составляет десятки тысяч.

Иногда различают еще нормативные и ненормативные словари. К первым относят такие, которые устанавливают определенные правила употребления слов, ко вторым — такие, где подобной задачи не ставится. Нормативным является большинство справочных словарей (орфоэпические, орфографические), основная масса толковых словарей. К ненормативным относятся исторические, этимологические и т. п. словари.

Специальные словари, показывающие нормы словоупотребления в особенно трудных случаях.

Следует отметить существование многочисленных промежуточных, переходных и смешанных типов. Так, переходными от лингвистических к нелингвистическим словарям являются словари терминов различных наук и отраслей техники.

Эти словари бывают одноязычными, двуязычными и многоязычными. Широкое распространение имеют терминологические словари, включающие специальные термины, употребляемые в какой-либо научной области: химии, биологии, медицине, гидротехнике и т. п. Существует, наконец, тип универсальных словарей, одновременно толковых и энциклопедических, включающих также этимологические и исторические справки, иногда важнейший материал иноязычных цитат, и снабженных в нужных случаях рисунками.

Особенности компьютерной лексикографии

править

В настоящее время лексикография находится под сильным воздействием новых методов обработки информации.

Изменение инструментальных средств приводит к появлению новых словарных технологий.

Современная информационная технология лексикографии — компьютерная лексикография. Значительная часть интеллектуальных операций переходит в разряд рутинных. При этом наблюдается процесс перехода части лексикографов осваивает новые профессии и отходит от "чистой" лексикографической деятельности, и начинают заниматься издательской деятельностью или организаторами лексикографических исследований и издателями их результатов, с другой стороны, часть специалистов, прежде всего, информатики активно занимаются лексикографической деятельностью.

Компьютерная лексикография представляет собой:

  • быстро развивающуюся отрасль компьютерной индустрии;
  • прикладную научную дисциплину в языкознании, изучающую методы, технологию и отдельные приемы использования компьютерной техники в теории и практике составления словарей.

Компьютерная лексикография — совокупность методов и программных средств обработки текстовой информации для создания словарей.

Инструментальные средства компьютерной лексикографии

править

К инструментальным средствам в рамках компьютерной лексикографии относятся – базы данных, компьютерные картотеки, программы обработки текста. Эти программы позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее.

Множество различных компьютерных лексикографических программ разделяются на две больших группы:

  • программы поддержки лексикографических работ,
  • компьютерные (автоматические) словари различных типов, включающие лексикографические базы данных.

Компьютерный (автоматический) словарь – это словарь в специальном машинном формате, предназначенный для использования на ЭВМ пользователем или компьютерной программой обработки текста.

Таким образом различаются автоматические словари конечного пользователя-человека и автоматические словари для программ обработки текста.

Автоматические словари, предназначенные для конечного пользователя, по интерфейсу и структуре словарной статьи существенно отличаются от автоматических словарей, включенных в системы машинного перевода, системы автоматического реферирования, информационного поиска и т.д.

Это могут быть компьютерные версии известных обычных словарей. Например:компьютерные аналоги толковых словарей английского языка (автоматический Вебстер, автоматический толковый словарь английского языка издательства Коллинз, автоматический вариант Нового большого англо-русского словаря под ред. Ю.Д.Апресяна и Э.М.Медниковой), компьютерная версия словаря Ожегова.

Автоматические словари для программ обработки текста можно назвать автоматическими словарями в точном смысле. Они, как правило, не предназначены для обычного пользователя. Особенности их структуры, сфера охвата словарного материала задаются теми программами, которые с ними взаимодействуют.

Язык Пролог и лексикография

править

Среди возможных сфер использования языка ПРОЛОГ можно выделить:

  1. автоматический перевод с одного языка на другой;
  2. создание естественно-языковых интерфейсов для существующих систем;
  3. проектирование динамических реляционных баз данных;
  4. экспертные системы и оболочки экспертных систем.


Программирование на Прологе предполагает описание некоего мира. Программа на этом языке состоит из множества фраз, задающих взаимосвязь между термами. Каждый терм обозначает ту или иную сущность, принадлежащую миру. Один из способов описания – это задание фактов. Факт – это утверждение о том, что соблюдается некоторое конкретное отношение. Он является безусловно верным.

Программы на Прологе, по своей сути, являются базами данных или базами знаний, так как они представляет собой совокупности предложений, определяющих отношения между объектами предметной области или свойства этих объектов. Свойства и отношения в Прологе называют предикатами.


Практикум

править

Согласно задания необходимо создать лингвистическую базу данных. В личном модуле можно привести фрагмент базы данных.


Создание лингвистической базы данных

править

Проекты участников

править

Буракова Валерия

править

Durdyeva LIYANA

править

Абдулхамитова Инара

править


Страноведческий учебный толковый словарь

Савченко Юлия

править


Создание интерфейса лингвистической системы

править

Проекты участников

править

Корпус текстов по предметной области "Архитектура компьютера"

править

Тексты на английском языке (тексты-оригиналы)

править

Тексты на русском языке

править


словарь по системам бизнес-анализа

править