Компьютерная лексикография
Компью́терная лексикогра́фия — прикладная научная дисциплина в языкознании, которая изучает методы использования компьютерной техники для составления словарей. Это временная дисциплина периода перехода от ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям[1].
Компьютерная лексикография представлена совокупностью методов и программных средств обработки текстовой информации для создания словарей[2]. В рамках компьютерной лексикографии разрабатываются компьютерные технологии составления и эксплуатации словарей. Специальные программы — базы данных, компьютерные картотеки, программы обработки текста — позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать её[3].
Множество различных компьютерных лексикографических программ разделяются на две большие группы: программы поддержки лексикографических работ и электронные словари различных типов, включающие лексикографические базы данных.
История компьютерной лексикографии[4]
Термин «Компьютерная лексикография» был придуман для обозначения области изучения машиночитаемых (электронных) словарей[5] и появился в середине 1960-х годов. Этой дисциплине уделяли мало внимания вплоть до начала 1990-х годов. Термин «машиночитаемый словарь» означает, что данные из словаря (хранящиеся в электронном виде) могут быть обработаны и исследованы с помощью современной вычислительной техники.
Новаторские работы Эвенса[6] и Амслера[7] (1980) послужили толчком для расширения исследований электронных словарей, например, была проведена практическая работа с использованием Седьмого Энциклопедического словаря Вебстера[8]. Стимулом для этих исследований послужило также широкое использование Longman Dictionary of Contemporary English[9] в 1980-х, этот словарь по-прежнему является одним из лучших электронных словарей.
Первоначально электронные словари имели такую же форму записи, как обычные словари, и исследователям приходилось тратить много времени для интерпретации такой формы записи (например, чтобы определить, к какой части речи относится определенное слово). С развитием технологий издатели решили отделить базу данных электронного словаря от того, как он выглядит при печати. Сегодня существуют более удобные формы записи, например расширяемый язык разметки XML. Используя XML, исследователи получают быстрый доступ к информации, хранящейся в электронном словаре.
Основные понятия компьютерной лексикографии
- Автоматический словарь — это словарь в специальном машинном формате, предназначенный для использования на ЭВМ пользователем или компьютерной программой обработки текста. Иными словами, различают автоматические словари пользователя-человека и автоматические словари для программ обработки текста. Автоматические словари, предназначенные для человека, по интерфейсу и структуре словарной статьи существенно отличаются от автоматических словарей, включённых в системы машинного перевода, системы автоматического реферирования, информационного поиска и т. д.[3]
- Гипертекст — это множество текстов со связывающими их отношениями (системой переходов)[10].
- Гипертекстовые технологии позволяют легко сочетать различные виды информации — обычный текст, рисунок, график, таблицу, схему, звук и движущееся изображение. Как традиционный текст, так и гипертекст — феномены, порожденные новыми технологиями. В первом случае технология позволила легко тиражировать и распространять знания самых различных типов, а во втором — компьютерные технологии дали возможность изменить сам внешний вид текста и его структуру. Разнородность гипертекста — это первое технологическое свойство гипертекста, технологическое в том смысле, что оно непосредственно следует из используемой компьютерной технологии. Второе технологическое свойство гипертекста — его нелинейность. Гипертекст не имеет стандартной, обычной последовательности чтения. Прочие свойства гипертекста в той или иной степени являются следствиями из этих двух технологических свойств[11].
- Практическая ценность гипертекста в компьютерной лексикографии состоит в том, что он описывает тип интерактивной среды с возможностями переходов по ссылкам. Нелинейный характер гипертекста дает возможность формирования информации в виде разветвлённой структуры, что позволяет в значительной степени расширить рамки словарной статьи, то есть он описывает тип интерактивной среды с возможностями перехода по ссылкам. Слова, фразы или рисунки, которые являются ссылками на тот или иной текст или рисунок, позволяют пользователю выбрать необходимую информацию и просмотреть связанные с ней сведения и материалы[12].
- Средства навигации по словарю — ссылки, внедрённые в различные элементы электронной среды — часть гипертекстового устройства электронного словаря, представляющего собой соединение смысловой структуры, структуры внутренних связей некоего содержания и технической среды и технических средств, дающих человеку возможность осваивать структуру смысловых связей, а также осуществлять переходы между взаимосвязанными элементами[13].
Электронные словари
Электронный словарь — это любой упорядоченный, относительно конечный массив лингвистической информации, представленный в виде списка, таблицы или перечня, удобного для размещения в памяти ЭВМ и снабженного программами автоматической обработки и пополнения[14].
Термин электронный словарь может быть использован для обозначения любого справочного материала, хранящегося в электронном виде и предоставляющего информацию о написании, значении или использовании слов. Таким образом, система проверки правописания в текстовом редакторе, устройство, которое сканирует и переводит напечатанные слова и электронная версия бумажного словаря — всё это электронные словари, имеющие сходные системы хранения и поиска[15].
В работе (Неси, 2000)[16] выделяют несколько категорий электронных словарей для изучения языков: интернет-словари, глоссарии для учебных онлайн-курсов, словари на компакт-дисках и карманные электронные словари. Неси[17] перечисляет несколько наиболее известных словарей на CD:
- Collins Cobuild Student’s Dictionary
- Cambridge International Dictionaries
- Оксфордский словарь английского языка
Онлайн-словари
Эпоха Интернета сделала онлайн-словари доступными непосредственно с рабочего стола компьютера, а затем и со смартфона. Скинер в 2013 году отметил: «В список слов, которые чаще всего ищут в онлайн-версии словаря Merriam-Webster, сейчас входят слова „holistic“, „pragmatic“, „caveat“, „esoteric“ и „bourgeois“. Исторически целью лексикографии было разъяснение неизвестных слов читателям. И современные словари успешно с этим справляются.»[18]
Существует большое количество веб-сайтов, работающих в качестве онлайн-словарей, обычно специализирующихся в каком-либо направлении. Некоторые из них содержат только те данные (часто включая неологизмы), которые были добавлены самими пользователями. Вот несколько наиболее известных примеров:
- Dictionary.com
- Double-Tongued Dictionary (данные добавлены пользователями)
- Free On-line Dictionary of Computing
- LEO (website)
- Logos Dictionary
- Pseudodictionary (только юмористические неологизмы, добавленные пользователями)
- Urban Dictionary (словарь англоязычного сленга)
- WWWJDIC (японский онлайн-словарь)
- Визуальный словарь (для каждого слова строится его понятийное окружение).
- Викисловарь
- Русский ассоциативный тезаурус, полученный на основе психолингвистических экспериментов. Интернет-сервис для работы с базой данных ассоциативного эксперимента на русском языке, проведенного в 1988—1997 гг. Ключевой особенностью веб-версии русского ассоциативного тезауруса является возможность проведения компаративного анализа ассоциаций по полу, возрасту и профессии. Тезаурус содержит свыше 1 млн ассоциаций, более 6 тыс. уникальных стимулов и 100 тыс. реакций от более чем 11 тыс. респондентов.
Взаимосвязь с задачами автоматической обработки текста
От традиционных методов обработки естественного языка компьютерная лингвистика отличается тем, что в первом случае внимание сосредоточено на моделировании всего того, что изучает лингвистика в целом, тогда как во втором основное внимание обращается на расчленение процесса понимания языка и на теоретическую лингвистическую корректность и адекватность предложенных моделей.
Компьютерная лингвистика тесно связана с центральной проблемой искусственного интеллекта — электронным представлением знаний. Основная задача компьютерной лингвистики — построение логико-лингвистических моделей и соответствующих им алгоритмов и программ[19].
Разрешение лексической многозначности
Решение задачи разрешение лексической многозначности (WSD) и развитие лексикографии, приносят пользу друг другу: WSD обеспечивает эмпирическую группировку смыслов и статистически значимые показатели контекста для новых или существующих значений. Кроме того, WSD позволяет создать семантическую сеть по данным машиночитаемых словарей. С другой стороны, лексикография предоставляет больший и лучший набор смыслов и собрание аннотаций к значениям слов, что может принести пользу WSD[20].
Извлечение информации[21]
Извлечение информации (англ. information extraction)[22] — это задача автоматического извлечения структурированных данных (автоматическая идентификация выбранных типов объектов, отношений, или событий) из неструктурированных или слабо структурированных машиночитаемых документов. Проблема IE была обозначена на Message Understanding Conferences, где основной задачей было извлечь из текста определённые данные и поместить в заданные слоты шаблонов. Заполнение шаблонов не требует полного разбора текста, этого можно достигнуть путём сопоставления с неким образцом(например, с помощью регулярных выражений). Слоты шаблонов заполняются серией слов, обычно классифицированных. Например, имена людей, названия организаций, химические элементы и т. д.
Для извлечения имён людей, например, могут применяться шаблоны, использующие электронные словари, содержащие списки имён и сокращений, предшествующих именам людей. Часто списки могут быть очень большими, например такие, как список названий компаний или записи географического справочника. Названия можно определить достаточно надежно, не выходя за рамки простых списков, так как в тексте они появляются в качестве просто существительных. Распознать и охарактеризовать событие в тексте тоже можно с помощью такой модели, но необходимо использование дополнительный лексической информации.
События обычно описываются глаголами, и это описание может быть выражено в виде различных синтаксических шаблонов. Несмотря на то, что эти модели могут быть выражены с некоторой степенью достоверности (например, компания наняла человека или человек был нанят компанией) в качестве основы для сравнения строк, этот подход не позволяет достичь желаемого уровня общности. Распознание события влечет за собой частичный разбор предложения.
Большей общности можно достигнуть путём расширения шаблонов требуемых семантических классов. Электронный словарь WordNet широко используется в IE, в частности, с использованием гиперонимических отношений как основы для определения семантических классов. Дальнейшее развитие в IE, вероятно, будет сопровождаться использованием более сложных вычислительных словарей.
Ответы на вопросы[21]
Несмотря на то, что большая часть исследований в теме «Ответы на вопросы» была проведена ещё в 1960-е годы, добавление тематики «Ответы на вопросы» на конференции TREC в 1998 г. позволило значительно продвинуться в этом направлении. С самого начала исследователи рассматривали эту задачу как включающую в себя семантическую обработку и предоставляющую удобный инструмент для определения значения слов. Это в целом оказалось так, но возникло много нюансов в обработке различных типов вопросов. Тезаурус WordNet стал использоваться практически во всех системах «Ответы на вопросы».
Вопросы анализируются для определения того, какого «типа» требуется ответ, например, вопрос: «Какая длина …?» требует, чтобы ответ содержал номер и единицу измерения; кандидат в ответ использует данные WordNet, чтобы определить, существует ли термин для единицы измерения. Изучение способов использования WordNet в задаче «Ответы на вопросы» продемонстрировало полезность иерархических и других видов отношений в машиночитаемых словарях.
За много лет ведения темы «Ответы на вопросы» на конференции TREC методы решения данной задачи постоянно совершенствовались, что позволяло задавать всё более сложные вопросы. Было придумано множество вопросов, для ответа на которые требуется как минимум разбор коротких текстов, содержащих ответ. Множество вопросов для получения ответов требуют более абстрактных рассуждений. Улучшения в решении задачи «Ответы на вопросы» по-прежнему в большой степени будут зависеть от достижений в компьютерной лексикографии.
Реферирование текстов
Область исследования автоматического реферирования текстов также выиграла от ряда оценочных мероприятий, известных как Document Understanding Conferences (в 2004 г.)[23]. При «добывающем реферировании» (англ. extractive summarization) (из текста извлекаются предложения, разительно отличающиеся от прочих) компьютерные словари используются существенно меньше, чем при построении аннотаций (англ. abstractive summarization). Во втором случае нужен более глубокий анализ текста, что ставит серьёзные требования перед машиночитаемым словарём[23].
Распознавание и синтез речи
Использование электронных словарей в технологиях распознавания речи ограничено. Машиночитаемые словари обычно содержат произношение, но эта информация обеспечивает только первый шаг в решении проблемы распознавания и синтеза речи. Электронный словарь речевой лексики включает в себя орфографическую форму слов или каноническое произношение. Словарь полных форм также содержит в словарной статье все формы слов; форм могут генерироваться на основе правил, но обычно все формы слов просто хранятся в словаре[24].
Знания канонического произношения недостаточно для обработки разговорного языка. Необходимо учитывать варианты произношения, являющиеся результатом областных различий, влияние родного языка для иностранцев, зависимость произношения и ударения от порядка слов. Некоторые из этих трудностей можно решить алгоритмически, но решение большинства из них возможно только благодаря более обширному набору информации. В результате речевые базы данных содержат эмпирические данные о фактическом произношении, фрагменты разговорной речи и её нотацию в письменной форме. Эти базы данных включают информацию о тех, чьи голоса записаны, типе речи, качестве записи и прочие данные. Самое главное, что эти базы данных содержат речевые данные в виде сигнала, записанного в аналоговой или цифровой форме. В связи с большими объёмами данных, участвующих в реализации основных систем распознавания и синтеза речи, эти системы ещё не содержат полный спектр семантических и синтаксических возможностей обработки озвученных данных[25].
Преимущества
Электронные словари превосходят бумажные аналоги по своей функциональности, имея при этом ряд преимуществ:
- Многофункциональность — разнообразие дополнительных функций, которые упрощают обращение к словарю. Например, можно указать части речи, происхождение, а так же словообразование, табуированность лексики[26].
- Использование средств мультимедиа — озвучивание заголовочных слов, введение иллюстративного материала с фотографиями, анимацией, видеофрагментами[27], а так же использование разнообразных графических средств[28].
- Актуальность и динамичность — возможность постоянного обновления информации, а так же изъятия устаревших данных[29]. Это одно из важных преимуществ перед «бумажными» словарями, так как они неизбежно становятся устаревшими на момент их выпуска[28].
- Большой объем словарной базы[26]. У большинства электронных словарей терминологическая база превышает базу бумажных словарей и предоставляет более удобный доступ к информации за счет использования гиперссылок[27].
- Вариативность в использовании — возможность использования словарей в локальной и глобальной сетях[27]. А именно, использование оффлайновой и онлайновой версии[26].
- Универсальность — как правило, программы позволяют работать сразу с несколькими языками и направлениями перевода[26]. Возможно использование любого из включённых в словарь языков в качестве входного[29].
- Удобный поиск — возможность использования эффективной системы поиска (полнотекстовый поиск, одновременный поиск в нескольких словарях, высокая скорость поиска)[27]. Так же пропадает необходимость помнить слово в точности, программа сама предложит варианты по первым буквам[30]. В электронных словарях для доступа к содержимому используются разнообразные лингвистические технологии, такие как: морфологический и синтаксический анализ, полнотекстовый поиск, распознавание и синтез речи[28].
Задачи компьютерной лексикографии
Перед учёными и программистами при преобразовании бумажных словарей в машиночитаемые словари (w:Machine-readable dictionary) встает множество проблем:
- Парсинг — задача, которая заключается в извлечении информации из словаря, написанного на естественном языке и представление её в виде древовидной структуры с узлами, которые состоят из атрибутов. Каждый атрибут имеет своё значение[31].
- Создание лексической базы данных — задача состоит в том, что при создании лексической базы данных, которая хранит информацию формируемого словаря, необходимо обеспечить быстрый, гибкий и удобный доступ. Так же записи, которые будут здесь храниться, должны иметь структурированный вид. Язык запросов к данной базе должен обеспечивать наиболее удобное добавление, изменение и удаление информации[32].
- Лексический анализ электронных словарей — задача состоит в том, чтобы выполнить анализ содержимого словаря (лексический анализ слова, поиск синонимов, поиск внутренних связей)[33]:
- Оценка числа многозначных-однозначных слов. Большинство слов в словарях однозначные, но есть слова со множеством смыслов. Задача состоит в том чтобы подсчитать количество значений слов в электронном словаре и количество многозначных слов[34];
- Автоматическое извлечение отношений гипоним-гипероним. Задача в нахождении всех пар гипоним-гипероним для данного словаря. Так как слова многозначны, любое слово может иметь несколько гиперонимов, поэтому если взять все пары гипоним-гипероним в словаре в виде группы, то по определению Амслера[35] это будет «запутанная иерархия»(англ. tangled hierarchy)[36];
- Отображение значений при извлечении сразу из нескольких словарей — задача состоит в том чтобы сопоставить значения слова, приведенные в одном словаре, со значениями этого же слова в другом словаре (аналог задачи отображение онтологий). Решение проблемы отображения значений необходимо для того, чтобы объединить данные разных словарях. Например, это позволило бы соотнести между собой грамматическую информацию от Longman Dictionary of Contemporary English с определением из Седьмого Энциклопедического словаря Вебстера[37];
- Определение значения в пределах одного словаря. Отношение синонимии (гиперонимии и др.) — это отношение между значениями, а не словами. Поэтому задача заключается в выборе значения многозначного слова в пределах одного словаря с целью указания синонимичного значения. Эта задача тесно связана с предыдущей, так как при сопоставлении значений нескольких словарей необходимо автоматически выбрать соответствующее значение из списка всех значений, перечисленных в словарной статье[38];
- Извлечение информации с помощью набора одноязычных и переводных словарей — идея в том, чтобы взять информацию из одноязычного словаря для данного языка и, используя переводной (двуязычный) словарь в качестве устройства передачи, передать информацию одноязычного словаря на второй язык[39].
Примечания
- Филиппович, 1999.
- Тузлукова В. И. — Типология педагогических лексикографических источников в международной педагогической лексикографии — Сборник трудов Второй Международной научно-практической конференции — с.45 Цит. по: Кашеварова И. С. — Электронный словарь как новый этап в развитии лексикографии — Молодой ученый — 2010
- Чепик, 2006, p. 275.
- Litkowski, 2005, p. 2.
- Amsler, R.A. Computational lexicology: A research program. In American Federated Information Processing Societies Conference Proceedings.— National Computer Conference. — 1982 Цит. по: Litkowski Computational lexicons and dictionaries// — 2004.
- Evens, M., & Smith, R. A lexicon for a computer question-answering system.— American Journal of Computational Linguistics.— 1978 — Mf.81 Цит. по: Litkowski Computational lexicons and dictionaries// — 2005.
- Amsler, R. A. The structure of the Merriam-Webster pocket dictionary [Diss]— Austin: University of Texas.— 1980 Цит. по: Litkowski Computational lexicons and dictionaries// — 2005.
- Gove, P. (Ed.). Webster’s Seventh New Collegiate Dictionary — G & C. Merriam Co.— 1972 Цит. по: Litkowski Computational lexicons and dictionaries// — 2005.
- Proctor, P. (Ed.). Longman Dictionary of Contemporary English — Harlow, Essex — England: Longman Group. — 1978 Цит. по: Litkowski Computational lexicons and dictionaries// — 2005.
- Баранов А.Н., 2001, p. 19.
- Баранов А.Н., 2001, p. 21.
- Чепик, 2006, p. 277.
- Потапова Р. К. Новые информационные технологии и лингвистика. — М.:МГЛУ, 2002. — 575 с. Цит. по: Табанакова В. Д., Ковязина М. А. Новая модель двуязычного экологического словаря-тезауруса. — Урал. гос. пед. ун-т, 2007. — P. 29 — 32
- Нелюбин Л. Л. Перевод и прикладная лингвистика. — М.: Высшая школа, 1983. — 208 с. Цит. по: Сивакова Н. А. Лексикографическое описание английских и русских фитонимов в электронном глоссарии // Тюмень. — 2004. — P. 11.
- Hilary NESI, 2000, p. 839.
- Hilary NESI, 2000, p. 842.
- Hilary NESI, 2000, p. 843.
- David Skinner, 2013.
- Шемякин Ю.И., 2003, p. 5.
- Navigli, 2009, pp. 10-53.
- Litkowski, 2005, pp. 9-11.
- Grishman, R. Information Extraction. In R. Mitkov (Ed.) — The Oxford handbook of computational linguistics,Oxford University Press. 2003. Цит. по: Litkowski Computational lexicons and dictionaries// — 2005.
- Litkowski, 2005, p. 11.
- Litkowski, 2005, p. 11-12.
- Litkowski, 2005, p. 12.
- Леонова А.В., 2012, p. 2.
- Чепик, 2005, p. 207.
- Кашеварова И.С., 2010, p. 146.
- Тузлукова В. И. — Типология педагогических лексикографических источников в международной педагогической лексикографии — Сборник трудов Второй Международной научно-практической конференции — с.47 Цит. по: Кашеварова И. С. — Электронный словарь как новый этап в развитии лексикографии — Молодой ученый — 2010
- Леонова А.В., 2012, p. 1.
- Roy J., 1987, pp. 220-223.
- Roy J., 1987, pp. 223-225.
- Roy J., 1987, pp. 225-226.
- Roy J., 1987, p. 226.
- Amsler, 1980.
- Roy J., 1987, pp. 226-227.
- Roy J., 1987, pp. 228-229.
- Roy J., 1987, pp. 234-236.
- Roy J., 1987, pp. 236-239.
Литература
- Баранов А.Н. Введение в прикладную лингвистику. — Эдиториал УРСС, 2001. — P. 360. Архивная копия от 19 апреля 2014 на Wayback Machine
- Кашеварова И.С. Электронный словарь как новый этап в развитии лексикографии. — «Молодой ученый», 2010. — № 10 (21). — P. 145-147.
- Леонова А.В., Снопкова Н.А. СОВРЕМЕННЫЕ ИНСТРУМЕНТЫ ТЕХНИЧЕСКОГО ПЕРЕВОДЧИКА. — Национальный исследовательский Иркутский государственный технический университет, 2012. — P. 2.
- Сивакова Н.А. Лексикографическое описание английских и русских фитонимов в электронном глоссарии // Тюмень. — 2004. — P. 28.
- Соловьева А.В. Профессиональный перевод с помощью компьютера. — Питер, 2008.
- Табанакова В.Д., Ковязина М.А. Новая модель двуязычного экологического словаря-тезауруса. — Урал. гос. пед. ун-т, 2007. — P. 29 – 32. (недоступная ссылка)
- Филиппович Ю., Чернышева М. Историческая компьютерная лексикография - terra incognita в компьютерном мире. — Компьютерра, 1999. — № 45 (09 ноября 1999). (недоступная ссылка)
- Чепик Е.Ю. Компьютерная лексикография как одно из направлений современной прикладной лингвистики. — Ученые записки таврического национального университета им В.И. Вернадского., 2006. — Т. 19, № 3-4. — P. 274-279. Архивировано 20 апреля 2014 года.
- Чепик Е.Ю. Политическое слово в структуре электронного словаря.. — Культура народов Причерноморья., 2005. — № 69. — P. 205-209.
- Чепик Е.Ю. Политическое слово в структуре электронного словаря.. — Культура народов Причерноморья., 2005. — № 69. — P. 205-209.
- Шемякин Ю.И. Начала компьютерной лингвистики. — Издательство МГОУ А/О "Росвузнаука", 2003. — P. 81. Архивная копия от 17 мая 2017 на Wayback Machine
- Amsler, Robert A. The Structure of the Merriam-Webster Pocket Dictionary : Doctoral Dissertation. — University of Texas at Austin Austin, TX, USA, 1980.
- K. Litkowski. Computational lexicons and dictionaries // Encyclopedia of Language and Linguistics. — 2005. — P. 1-14. Архивировано 12 ноября 2013 года.
- Hilary NESI. Electronic Dictionaries in Second Language Vocabulary Comprehension and Acquisition: the State of the Art // Proceedings of the Ninth EURALEX International Congress, EURALEX 2000: Stuttgart, Germany, August 8th-12th. — 2000. — P. 839-847.
- Roy J. Byrd, Nicoletta Calzolari, Martin Chodorow, Judith L. Klavans, Omneya A. Rizk, Mary S. Neff. Tools And Methods For Computational Lexicology. — Computational Linguistics Volume 13. — Kluwer Academic Publishers, 1987. — P. 219-240. Архивная копия от 27 октября 2011 на Wayback Machine
- David Skinner. The Role of a Dictionary // Opinionator: Exclusive Online Commentary from the Times. — 2013.