Компьютерная лексикография
Теория
правитьВведение
правитьДанный курс предназначен для:
- изучения теоретических вопросов компьютерной лексикографии;
- освоения практических вопросов создания компьютерных словарей.
Лексикография
правитьЛексикография (от гр. lexikon — словарь, grapho — пишу) изучает теорию и практику составления различных языковых словарей.
Теоретическая лексикография изучает вопросы разработки макроструктуры и микроструктуры словаря, разработку типологии словарей, историю развития лексикографии.
Макроструктура словаря определяет отбор лексики, объём и характер словника, принципы расположения материала.
Микроструктуры словаря определяет структуру словарной статьи, типы словарных определений, соотношение разных видов информации о слове, типы языковых иллюстраций.
Практическую лексикографию можно определить как процесс составлением словарей различных типов на базе теоретических разработок.
Этапы разработки словаря:
- Разработка системы требований, касающихся назначения и круга пользователей.
- Разработка системы требований, касающихся таких параметров словаря как единицы описания, объем, структуру, вид словарной информации.
- Отбор текстов, расписывание контекстов, характеристика грамматических форм, составление предварительных словников.
- Дистрибутивный анализ текстов, тесты с носителями языка.
- Обобщение экспериментальных данных.
- Построение дефиниций на соответствующем метаязыке и их проверка в ходе новых экспериментов.
- Сбор и систематизация дополнительной информации о каждой языковой единице.
- Оформление словарных статей.
- Системный анализ и упорядочение словарных статей.
- Оформление словаря.
Типы словарей
правитьРассматривая классификацию словарей следует учитывать, что разнообразие словарей объясняется сложностью самого объекта лексикографического описания — языка.
Практически нет никакой возможности дать в одном словаре всю в той или иной мере исчерпывающую информацию о языке, которая удовлетворила бы в равной степени все общество в целом и отдельные его слои и частности.
Это объясняет почему в любой национальной лексикографии реализуются десятки и сотни словарей самых разных типов.
Деление словарей на типы происходит по различным основаниям: в зависимости от цели словаря, его объема, порядка расположения в нем слов, объекта описания и т. д.
Попытки создания классификации словарей предпринимались многими лингвистами, в частности Л. В. Щербой, П. Н. Денисовым, Б. Кемадой, Я. Малкилом, Л. Згустой и др.
В лингвистике пока нет общепринятой типологии.
Можно выделить следующие типы словарей:
- переводные,
- толковые,
- диалектные,
- региональные,
- словари сленга,
- исторические,
- неологизмов,
- этимологические,
- крылатых.
Кроме этого различают словари лингвистические и нелингвистические.
В лингвистических словарях собирают и описывают лексические единицы языка.
Особый подтип лингвистических словарей составляют идеографические словари, идущие от понятия (идеи) к выражению этого понятия в слове или словосочетании.
В нелингвистических словарях лексические единицы служат лишь отправной точкой для сообщения тех или иных сведений о предметах и явлениях вне языковой действительности.
Встречаются и промежуточные разновидности словарей.
Кроме того выделяют словари «общие» и «специальные».
Примерами общих лингвистических словарей могут служить обычные толковые и переводные словари, охватывающие с той или иной степенью полноты всю лексику, бытующую в общенародном употреблении.
Специальный лингвистический словарь разрабатывает какую-то одну область лексики, иногда достаточно широкую (например, фразеологический словарь, словарь иностранных слов), иногда же довольно узкую (например, словарь личных имен, даваемых новорожденным).
Общий нелингвистический словарь — энциклопедия.
Специальный нелингвистический словарь — это специальная (отраслевая) энциклопедия (медицинская, юридическая и т. д.), краткий словарь той или иной области знания, биографический словарь деятелей той или иной страны («Who is who»).
Толковым словарем называют такой словарь, главной задачей которого является толкование значений слов (и фразеологизмов) какого-либо языка средствами самого этого языка. Толкование дается с помощью логического определения концептуального значения, посредством подбора синонимов или в форме указания на грамматическое отношение к другому слову.
В некоторых толковых словарях значения слов раскрываются с помощью рисунков.
Эмоциональные, экспрессивные и стилистические коннотации указываются посредством специальных помет («formal», «colloq» и т. П.).
Отдельные значения могут иллюстрироваться примерами — типичными сочетаниями, в которых участвует данное слово.
В толковых словарях дают также грамматическую характеристику слова, указывая с помощью специальных помет на часть речи, грамматический род имени существительного, вид глагола и т. д. В той или иной мере указывается и произношение слова (например, в русских толковых словарях — ударение), иногда сообщаются и разные другие, добавочные сведения. Обычно толковые словари являются словарями современного литературного языка. Некоторые из них носят строго нормативный характер — отбирают только факты, полностью соответствующие литературной норме, рекомендуют эти факты как единственно «правильные» и отсекают все, что хотя бы немного отклоняется в сторону просторечья (академический словарь французского языка — Dictionnaire de I'Academie Franзaise).
Для многих других толковых словарей характерно более широкое понимание литературного языка и, соответственно, включение в словарь разговорной и даже просторечной лексики (кроме лишь узко-областных, диалектных, узкопрофессиональных и сугубо арготических элементов).
Главная задача толкового словаря – истолковать значение слов и их применение в речи, отграничить правильное от неправильного, показать связь слов со стилями языка, дать читателю сведения об особенностях падежных, родовых, залоговых, видовых и иных грамматических форм слова; попутно указывается, как слова пишутся и произносятся.
Переводные словари, чаще всего они являются двуязычными (скажем, русско-английский и англо-русский), а иногда многоязычные. Данный тип словарей используется при изучения иностранные языки, при переводе текстов с одного языка на другой. В переводных словарях вместо толкования значений на том же языке даются переводы этих значений на другой язык, например, накалиться – become heated, назойливый – importunate, troublesome. В зависимости от того, предназначен ли словарь как пособие при чтении (слушании) текста на чужом языке, или как пособие при переводе с родного языка на чужой, его желательно строить по-разному. Так, русско-английский словарь для англичан может давать меньше сведений в английской части, чем их дает русско-английский словарь, предназначенный для русских. Переводный словарь должен содержать стилистические пометы.
Перевод слов всегда представляет большую трудность, т.к. объем значения слова в разных языках часто не совпадает, переносные значения в каждом языке развивается по-своему. Переводные словари могут быть двуязычными (русско-французский, англо-русский и т.п.) и многоязычными.
К общим словарям относятся словари, рассматривающие лексику под каким-либо специфическим углом зрения. Например словообразовательные (деривационные) словари, указывающие членение слов на составляющие их элементы — морфологический составе слова.
Этимологические словари (одного языка или группы родственных языков), содержащие сведения о происхождении и первоначальной мотивировке слов. Краткие этимологические словари обыкновенно ограничиваются приведением для каждого слова одной этимологии, представляющейся автору словаря наиболее вероятной. Полные словарях, как правило, приводятся соответствия в родственных языках и излагаются «контроверзы», т. е. споры ученых, касающиеся этимологии тех или иных слов, даются краткие сводки предложенных гипотез и их критическая оценка.
От этимологических словарей следует отличать исторические словари, которые, в свою очередь, представлены двумя разновидностями.
- В словарях относящихся к первой группе некоторых из них ставится цель — проследить эволюцию каждого слова и его отдельных значений на протяжении письменно засвидетельствованной истории соответствующего языка, обычно вплоть до современности.
- Ко второй разновидности исторических словарей следует отнести словари древних периодов истории соответствующего языка.
Особое место занимают диалектологические, или диалектные словари. Диалектный словарь может быть дифференциальным, т.е. содержащим только диалектную лексику, отличающуюся от общенародной, либо полным, охватывающим всю лексику, бытующую в диалектной речи — как специфическую для данного диалекта, так и совпадающую с лексикой общенародного языка.
Сравнительно новый тип словарей — частотные словари. Их задача — показать сравнительную частоту употребления слов языка в речи. Частотные словари позволяют делать очень интересные выводы о функционировании в речи слов и грамматических категорий языка.
Чисто практические цели преследуют орфографические и орфоэпические словари, указывающие «правильное» (т. е. отвечающее принятой норме) написание слов и их форм и, соответственно, «правильное» произношение.
Среди специальных лингвистических словарей большой интерес представляют различные фразеологические словари. Они бывают переводными (например, англо-русский фразеологический словарь А. В. Кунина) и одноязычными, дающими толкование значений фразеологизмов средствами того же самого языка. Разновидностью фразеологических словарей являются словари «крылатых слов», т. Е. ходовых цитат из литературных произведений, афоризмов знаменитых людей и др. фразеологизмов, главным образом книжного употребления, имеющих литературный источник. Особую разновидность фразеологических словарей составляют словари народных пословиц и поговорок.
Из других специальных лингвистических словарей выделяются словари синонимов, антонимов, омонимов, иностранных слов, словари сокращений, различные словари имен собственных, словари рифм.
Особую группу составляют лингвистические справочные словари, в которых дается не объяснение значения слова или особенностей его употребления и происхождения, а приводятся различного рода справки о слове как языковой единице. Словарь иностранных слов дает краткое объяснение значений и происхождения иноязычных слов, указывает язык-источник (последнее обстоятельство сближает словари иностранных слов с этимологическими). Словари неологизмов описывают слова, значения слов или сочетания слов, появившиеся в определенный период времени или употребленные только один раз (окказионализмы). В развитых языках количество неологизмов, зафиксированных в газетах и журналах в течение одного года, составляет десятки тысяч.
Иногда различают еще нормативные и ненормативные словари. К первым относят такие, которые устанавливают определенные правила употребления слов, ко вторым — такие, где подобной задачи не ставится. Нормативным является большинство справочных словарей (орфоэпические, орфографические), основная масса толковых словарей. К ненормативным относятся исторические, этимологические и т. п. словари.
Специальные словари, показывающие нормы словоупотребления в особенно трудных случаях.
Следует отметить существование многочисленных промежуточных, переходных и смешанных типов. Так, переходными от лингвистических к нелингвистическим словарям являются словари терминов различных наук и отраслей техники.
Эти словари бывают одноязычными, двуязычными и многоязычными. Широкое распространение имеют терминологические словари, включающие специальные термины, употребляемые в какой-либо научной области: химии, биологии, медицине, гидротехнике и т. п. Существует, наконец, тип универсальных словарей, одновременно толковых и энциклопедических, включающих также этимологические и исторические справки, иногда важнейший материал иноязычных цитат, и снабженных в нужных случаях рисунками.
Особенности компьютерной лексикографии
правитьВ настоящее время лексикография находится под сильным воздействием новых методов обработки информации.
Изменение инструментальных средств приводит к появлению новых словарных технологий.
Современная информационная технология лексикографии — компьютерная лексикография. Значительная часть интеллектуальных операций переходит в разряд рутинных. При этом наблюдается процесс перехода части лексикографов осваивает новые профессии и отходит от "чистой" лексикографической деятельности, и начинают заниматься издательской деятельностью или организаторами лексикографических исследований и издателями их результатов, с другой стороны, часть специалистов, прежде всего, информатики активно занимаются лексикографической деятельностью.
Компьютерная лексикография представляет собой:
- быстро развивающуюся отрасль компьютерной индустрии;
- прикладную научную дисциплину в языкознании, изучающую методы, технологию и отдельные приемы использования компьютерной техники в теории и практике составления словарей.
Компьютерная лексикография — совокупность методов и программных средств обработки текстовой информации для создания словарей.
Инструментальные средства компьютерной лексикографии
правитьК инструментальным средствам в рамках компьютерной лексикографии относятся – базы данных, компьютерные картотеки, программы обработки текста. Эти программы позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее.
Множество различных компьютерных лексикографических программ разделяются на две больших группы:
- программы поддержки лексикографических работ,
- компьютерные (автоматические) словари различных типов, включающие лексикографические базы данных.
Компьютерный (автоматический) словарь – это словарь в специальном машинном формате, предназначенный для использования на ЭВМ пользователем или компьютерной программой обработки текста.
Таким образом различаются автоматические словари конечного пользователя-человека и автоматические словари для программ обработки текста.
Автоматические словари, предназначенные для конечного пользователя, по интерфейсу и структуре словарной статьи существенно отличаются от автоматических словарей, включенных в системы машинного перевода, системы автоматического реферирования, информационного поиска и т.д.
Это могут быть компьютерные версии известных обычных словарей. Например:компьютерные аналоги толковых словарей английского языка (автоматический Вебстер, автоматический толковый словарь английского языка издательства Коллинз, автоматический вариант Нового большого англо-русского словаря под ред. Ю.Д.Апресяна и Э.М.Медниковой), компьютерная версия словаря Ожегова.
Автоматические словари для программ обработки текста можно назвать автоматическими словарями в точном смысле. Они, как правило, не предназначены для обычного пользователя. Особенности их структуры, сфера охвата словарного материала задаются теми программами, которые с ними взаимодействуют.
Язык Пролог и лексикография
правитьСреди возможных сфер использования языка ПРОЛОГ можно выделить:
- автоматический перевод с одного языка на другой;
- создание естественно-языковых интерфейсов для существующих систем;
- проектирование динамических реляционных баз данных;
- экспертные системы и оболочки экспертных систем.
Программирование на Прологе предполагает описание некоего мира. Программа на этом языке состоит из множества фраз, задающих взаимосвязь между термами. Каждый терм обозначает ту или иную сущность, принадлежащую миру. Один из способов описания – это задание фактов.
Факт – это утверждение о том, что соблюдается некоторое конкретное отношение. Он является безусловно верным.
Программы на Прологе, по своей сути, являются базами данных или базами знаний, так как они представляет собой совокупности предложений, определяющих отношения между объектами предметной области или свойства этих объектов. Свойства и отношения в Прологе называют предикатами.
Практикум
правитьСогласно задания необходимо создать лингвистическую базу данных. В личном модуле можно привести фрагмент базы данных.
Создание лингвистической базы данных
правитьwst(gas, газ).
wst(aeroplane, самолет).
wst(air, воздух).
Проекты участников
правитьБуракова Валерия
править- voc(welcome, 'добро пожаловать').
- voc3(learning, изучение, n).
- voc3(learning, учеба, n).
- voc3(learning, учение, n).
- voc3(learning, ученость, n).
- voc3(learning, эрудиция, n).
- voc3(learning, познания, n).
- voc3(learning, изучающий, adj).
- voc( free, выходной, n).
- voc( free, освобождать, v).
- voc( free, выпускать, v).
- voc( free, свободный, adj).
- voc( free, независимый, adj).
- voc( free, бесплатно, adv).
- voc( free, свободно, adv).
- voc( with, c, pr).
- voc( resources, запасы, n).
- voc( resources, ресурсы, n).
- voc( resources, возможность, n).
- voc( resources, денежные средства, n).
- voc( resources, средства, n).
Durdyeva LIYANA
править== Американский и Вританский диалекты английского языка ==
voc(airplane, самолет, amer ).
voc(aeroplane, самолет, br ).
voc(billion, миллиард, amer).
voc(milliard, миллиард, br).
voc(candy, конфета, amer).
voc(sweet, конфета, br).
voc(mail, почта, amer).
voc(post, почта, br).
voc(officer, полицейский, amer).
voc(constable, полицейский, br).
voc(soccer, футбол, amer).
voc(football, футбол, br).
voc(streetcar, трамвай, amer).
voc(tram, трамвай, br).
voc(subway, метро, amer).
voc(underground метро, br).
voc(vacation, отпуск, amer).
voc(holiday отпуск, br).
voc(administration, правительство, amer).
voc(government, правительство, br).
voc(apartment, квартира, amer).
voc(flat, квартира, br).
voc(appetizer, закуска, amer).
voc(starter, закуска, br).
voc(assignment, задание, amer).
voc(homework, задание, br).
voc(baggage, багаж, amer).
voc(luggage, багаж, br).
voc(basement, подвал, amer).
voc(cellar, подвал, br).
voc(bill, банкнота, amer).
voc(banknote, банкнота, br).
voc(billion, миллиард, amer).
voc(milliard, миллиард, br).
voc(blue, грустный, amer).
voc(sad, грустный, br).
voc(checkers, шашки, amer).
voc(draughts, шашки, br).
voc(closet, гардероб, amer).
voc(wardrobe, гардероб, br).
voc(cookie, печенье, amer).
voc(biscuit, печенье, br).
voc(corn, кукуруза, amer).
voc(maize, кукуруза, br).
voc(couch,диван, amer).
voc(sofa, диван, br).
voc(druggist, аптекарь, amer).
voc(chemist, аптекарь, br).
voc(elevator, лифт, amer).
voc(lift, лифт, br).
voc(eraser, ластик, amer).
voc(rubber, ластик, br).
voc(fall, осень, amer).
voc(autumn, осень, br).
voc(fix, ремонтировать, amer).
voc(repair, ремонтировать, br).
voc(freeway, шоссе,amer).
voc(motorway, шоссе, br).
voc(game, матч, amer).
voc(match, матч, br).
voc(gasoline, бензин, amer).
voc(petrol, бензин, br).
voc(grade, отметка, amer).
voc(mark, отметка, br).
voc(insure, гарантировать, amer).
voc(ensure, гарантировать, br).
voc(kerosene, керосин, amer).
voc(paraffin, керосин, br).
voc(line, очередь, amer).
voc(queue, очередь, br).
voc(located, расположенный, amer).
voc(situated, расположенный, br).
voc(magician, фокусник, amer).
voc(conjurer, фокусник, br).
voc(mail, почта, amer).
voc(post, почта, br).
voc(subway, метро, amer).
voc(underground, метро, br).
voc(movies, кинотеатр, amer).
voc( cinema , кинотеатр, br).
voc(napkin, салфетка, amer).
voc(serviette, салфетка, br).
voc(package, пакет, amer).
voc(parcel, пакет, br).
voc(pantry, кладовая, amer).
voc(larder, кладовая, br).
voc(pants, брюки, amer).
voc(trousers, брюки, br).
voc(pavement, мостовая, amer).
voc(road, мостовая, br).
voc(pool, бильярд, amer).
voc(billiards, бильярд, br).
voc(president, председатель, amer).
voc(chairman, председатель, br).
voc(quiz, контрольная, amer).
voc(test, контрольная, br).
Абдулхамитова Инара
правитьТолковый словарь по страноведению
britain('England', 'Англия – самая большая и самая богатая страна Великобритании').
britain('The United Kingdom of Great Britain and Northern Ireland', 'официальное название страны, которую мы обычно называем «Англия» и иногда «Великобритания», — Соединенное королевство Великобритании и Северной Ирландии. Расположено на группе островов лежащих неподалеку от материка на северо-западе Европы. Общая площадь островов составляет 325 тысяч кв. км').
britain('Stonehenge', 'Стоунхендж – одно из самых известных доисторических мест в мире. Это древний круг из камней, находящийся на юго-востоке Англии. Его диаметр равняется 30 метрам, и сделан из массивных каменных блоков до четырех метров высотой').
britain('Salisbury Cathedral', 'Салисбурийский собор — это прекрасный пример английского готического собора, внутри него хранится одна из четырех копий Великой хартии и самые старые часы Англии').
britain('Chester', 'Честер – город находящийся на северо-западе Англии, в прошлом это был римский форт; название его происходит от латинского слова «castra», что означает «укрепленный лагерь». В Честере находится знаменитый музей, в котором собрано более 5000 древних и современных игрушек').
britain('Scotland', 'Шотландия – страна на севере Великобритании. Это часть соединенного Королевства. Шотландия разделена на 3 области: Южные возвышенности, Центральные низменности и высокогорья, а также острова. Столица Шотландии – Эдинбург').
britain('Wales', 'Уэльс –страна на востоке Великобритании. Это главным образом, гористая местность с преобладающей сельскохозяйственной экономикой и промышленным и угледобывающим районом на юге. Кардифф –столица Уэльса').
britain('Northern Ireland', 'Северная Ирландия, известная также как Ольстер. Является частью Соединенного Королевства. Она состоит из 6 частей: Антрим, Даун, Ферманаг, Лондондерри, Тирон. Столица – Белфаст').
britain('Parliament', 'Парламент – это главная законодательная власть в Британии. Парламент считается представительным органом, то есть представляющим волю населения').
britain('Queen Victoria', 'Rоролева Виктория — королева Соединённого Королевства Великобритании и Ирландии с 20 июня 1837, императрица Индии с 1 мая 1876 (провозглашение в Индии — 1 января 1877), последний представитель Ганноверской династии на троне Великобритании. Виктория пробыла на троне более 63 лет — больше, чем любой другой британский монарх').
britain('Queen Anne', 'Королева Анна — королева Англии и Шотландии с 1702 года, с 1707 — первый монарх юридически объединённой Великобритании. Её царствование характеризуется ослаблением роли монарха и усилением министров. Это было связано со слабым здоровьем и с зависимым характером королевы, а также с общими тенденциями к ограничению королевской власти после «Славной революции»').
britain('The act of Union', 'Акт объединения, 1707 — действие парламента, объединившего Шотландию и Англию в Объединенном Королевстве Великобритании под одним государством, каждой удерживающей собственной юридической системой и национальной Церковью').
britain('Anglo-Saxon', 'Древнеанглийский язык или англосаксонский язык — ранняя форма английского языка, распространённая в нынешних Англии и южной Шотландии с середины V до середины XII веков').
britain('Anglo-Saxons', 'Англосаксы. Историки дают это название германским племенам англов и саксов, к которым примкнули и юты. Эти племена, жившие между реками Эльбой и Рейном (область расселения саксов) и на Ютландском полуострове (область расселения англов и ютов), в середине V века начали переселяться в Британию').
Страноведческий учебный толковый словарь
Савченко Юлия
правитьwst(face_a_dilemma, 'стоять перед дилеммой').
wst(face_difficulties, 'сталкиваться с трудностями').
wst(face_the, 'встречаться с').
wst(face_to_face, 'лицом к лицу').
wst(face_up_to, 'быть готовым к').
wst(fact_that, 'то, что').
wst(fade_away, исчезать, затухать).
wst(fade_in, усиливаться).
wst(fade_out, ослабевать).
wst(fall_apart, разваливаться).
wst(fall_back, снижать).
wst(fall_down, падать).
wst(fall_into, 'входить в').
wst(fall_off, ослабевать).
wst(fall_out, выпадать).
wst(fall_over, опрокидывать).
wst(fall_within, 'находиться в пределах').
wst(far_and_away, значительно).
wst(far_and_by, 'в общем').
wst(far_and_near, повсюду).
wst(far_away, далеко).
wst(far_cry, 'большое расстояние').
wst(far_cry_from, 'далеко от').
Создание интерфейса лингвистической системы
править%"Программа словарь".
wst3(gas, газ, o).
wst3(gas, топливо, amer).
wst(aeroplane, самолет).
wst(air, воздух).
vvodeng:-read(X),proc(X).
proc(stop):-!.
proc(X):-wst(X,Y),write(Y),nl,vvodeng.
vvodrus:-read(Y),proc(Y).
proc(стоп):-!.
proc(Y):-wst(X,Y),write(X),nl,vvodrus.
run:-write('Программа "Англо-Русский" и "Русско-Английский" словарь'),
nl,write('Для ввода английского слова в строке запроса введите процедуру vvodeng'),
nl,write('Для ввода русского слова в строке запроса введите процедуру vvodrus').
пуск:-write('Программа "Англо-Русский" и "Русско-Английский" словарь'),
nl,write('Для ввода английского слова в строке запроса введите процедуру vvodeng'),
nl,write('Для ввода русского слова в строке запроса введите процедуру vvodrus').
vvodengm:-read(X),read(Z),proc(X,Z).
proc(stop):-!.
proc(X,Z):-wst3(X,Y,Z),write(Y),nl,vvodengm.
Проекты участников
правитьКорпус текстов по предметной области "Архитектура компьютера"
правитьТексты на английском языке (тексты-оригиналы)
править- Архитектура компьютера в англоязычном разделе викиверситета (Computer Architecture)
- Архитектура компьютера в англоязычном разделе википедии
Тексты на русском языке
править