XDXF
XDXF (XML Dictionary eXchange Format) — свободный проект по объединению всех существующих словарных форматов на основе универсального XML-формата, поддерживающего возможность структурно-семантической разметки словарных статей. Проект включает в себя открытый формат XDXF и open-source конвертер словарей различных форматов. Формат позволяет создавать как обычные пользовательские словари, так и тезаурусы и онтологии. Проект находится в фазе активного развития[1].
XML Dictionary eXchange Format | |
---|---|
Расширение |
.xdxf |
Разработчик | Сергей Сингов, Леонид Сошинский, и др. |
Опубликован | 9.10.2006 |
Последний выпуск | rev.32 (6.10.2013) |
Тип формата | словарные форматы |
Открытый формат? | Да |
makedict | |
---|---|
Тип | converter словарей |
Разработчик | mrcoder1234, kubtek |
Написана на | C++ |
Первый выпуск | 10 сентября 2006 |
Аппаратная платформа | кросс-платформенный |
Последняя версия | 0.4 (12 лет 54 дня тому назад) |
Тестовая версия | 0.4.1-beta1 (2012 ) |
Лицензия | GNU GPL |
Сайт | github.com/soshial/xdxf_… |
Преимущества и недостатки
Основные преимущества перед конкурирующими форматами:
- обладает богатой схемой мета-информации о файле (издатель, автор, редактор, год издания и т. п.; позволяет сортировать файлы в библиотеке словарей)
- позволяет ссылаться не только на полные словарные статьи, но и на их части
- позволяет выделять в словарной статье основные варианты переводов для предпросмотра статей[2]
- обладает гибкой настройкой полнотекстовой индексации словаря
- богатая система семантически связанных слов (синонимы, гиперонимы, антонимы, меронимы и т. п.)
- позволяет относиться словарные статьи к категориям, подобным категориям статей на Википедии
Особенности формата XDXF
Визуальный тип оформления был оставлен с целью сохранить совместимость со старыми версиями и со словарями, сконвертированными из других форматов, не поддерживающих структурно-семантическую разметку. Вид выводимых статей полностью отвечает форматирование, отступы, выделения текста, описанные внутри XML кода. Структурно-семантическое оформление же позволяет иметь вложенные словарные статьи; оформление статей этого вида полностью перелагается на плечи программной оболочки, которая должна позволять настраивать цвета и внешний вид словаря. Есть возможность дополнять их транскрипцией, синонимами, антонимами, гиперонимами, этимологией, фразеологизмами, грамматическую информацию, аббревиатуры, ссылки на другие статьи, внешние медиа-файлы, исключение из индекса, комментарии, примеры использования и другое. Благодаря перечисленному формат XDXF обладает высокой гибкостью: его можно использовать в качестве тезауруса либо онтологии.
Программное обеспечение
Программы словарей
Для чтения формата XDXF существует большое количество программ под большинство платформ:
- кросс-платформенные: GoldenDict
- Linux: XDClient (консольный словарь с поддержкой регулярных выражений, GPL), Qamus (Qt Framework, GPL)
- Windows: Stardict (начиная с версии 2.4.6), SimpleDict (Qt, GPL), Dicto (проприетарный, с всплывающими окнами)
- Maemo: Atlantida, WiseDict, WhiteStork
- Android: Alpus (неполная поддержка), Wordoholic Dictionary (неполная поддержка).
- iPhone: Alpus.
Словари
По состоянию на август 2010, проект содержал 309 свободно распространяемых словарей, суммарным размером 460.16 MiB в сжатом состоянии (и 2 683.04 MiB в несжатом), с 12,488,072 статьями[3]. Однако, до сих пор превалирующее количество свободных и коммерческих словарей остаются неконвертированными в данный формат.
По состоянию на 11.04.2014, репозиторий на сайте проекта XDXF закрыт, и предлагается скачивать словари непосредственно с SourceForge[4], однако в сети имеется по крайней мере один каталог[5], упрощающий поиск по базе словарей, что ранее входило в функции репозитория на сайте проекта.
История
В самом начале разработки формата развивался двумя параллельными путями: XDXF и XDXF-L (образовано от logical). Если первая обладала простой структурой и использовалась чаще всего для создания обычных одноязычных и двуязычных словарей, то вторая — позволяла иметь в словаре огромное количество структурированной информации, по сути превращая его из словаря в словарную базу данных с грамматической, морфологической и лексической информацией. Из-за громоздкости формата, разногласий между авторами и различий в грамматике языков из разных языковых семейств окончательная версия формата так и не была выпущена. Однако XDXF приобрёл развитие и сам разделился на две ветки: визуальное оформление словарных статей и структурно-семантическое, вобравшее в себя сильные стороны XDXF-L.
Примечания
- XDXF стал использоваться для хранения различных словарей, однако де факто доминирующим форматом не стал. Что, возможно, связано с тем, что пока не разработан редактор, позволяющий создавать статьи через какой-либо интерфейс, поэтому словари создаются либо с помощью конвертации makedict, либо вручную
- Пример предпросмотра словарных статей
- XDXF Dictionaries Download (внизу страницы)
- SourceForge XDXF repository (внизу страницы)
- каталог словарей XDXF на сайте Dicto (внизу страницы)
Ссылки
- Сайт проекта (англ.)
- Репозиторий словарей XDXF (англ.)
- Описание и DTD-схема XDXF (англ.)
- Репозиторий makedict
- Многоязыковая игра Scrabble, использующая XDXF (англ.)