Татоэба
Проект Татоэба (Tatoeba project, от японского слова татоэба (яп. 例えば, «например») — сайт для обмена примерами фраз на всех доступных языках мира. В отличие от онлайн-словарей, в которых хранятся переводы слов, проект ориентирован на цельные семантические конструкции — фразы, предложения, пословицы и т. д.; их накапливаемые аналоги на различных языках сопоставляются друг с другом вручную или автоматически. Особенностью проекта является его открытость и общедоступность: Татоэба заявлена как некоммерческий проект[3], а любой желающий вне зависимости от специализации и языковой принадлежности может вносить изменения в базы данных проекта (добавлять и, в отдельных случаях, редактировать существующие фразы, исправлять ошибки).
Tatoeba Project | |
---|---|
URL | tatoeba.org |
Коммерческий | Нет |
Тип сайта | Открытый многоязычный онлайн-словарь фраз |
Регистрация | Требуется только для редактирования |
Язык(-и) | 19 языков интерфейса, включая русский; контент на 130 языках (Май 2013) |
Владелец | Trang Ho |
Автор | Trang Ho |
Начало работы | 2006 |
Текущий статус | Актуальный[1] |
Рейтинг Alexa | |
Медиафайлы на Викискладе |
Благодаря этим особенностям проект Татоэба постепенно получает признание как уникальное средство для самостоятельного обучения[4]. На декабрь 2010 года проект поддерживал 81 язык и предоставлял 11 вариантов языкового интерфейса; в ноябре 2011 эти показатели составили 94 и 17 соответственно; в январе 2014—132 и 19.
Создателем и лидером проекта является Чанг Хо (Trang Ho), француженка вьетнамского происхождения[5]. Первые примеры сайта датированы 30 сентября 2007[6]. Предложение № 1 принадлежит пользователю sysko: это китайская фраза «Посмотрим-ка!»[7].
Принцип работы
Принцип работы проекта заключается в сборе и увязывании переводов той или иной фразы данного языка. Система анализирует все поступившие данные. Если конструкция А переводится на другой язык как конструкция В, а та, в свою очередь — как конструкция С, то все три будут отображены как цепочка прямых или косвенных переводов, которая по умолчанию будет отображена при поиске любого из фрагментов соответствующих фраз А, В и С (количество отображаемых языков может быть ограничено индивидуальными пользователями).
Просматривать накопленный материал могут все желающие, добавлять и редактировать — только зарегистрированные участники. Участники со стажем могут получить статус «доверенного» («trusted user»). Он дает доступ к тегам, а также позволяет связывать адекватные переводы между собой или «отрезать» неадекватные. Ограниченный круг участников проекта имеет статус «блюстителей» (corpus maintainers), которые имеют администраторские полномочия.
В отличие от учебников, интернет-словарей и форумов, проект Татоэба не ориентирован на конкретную языковую аудиторию или профессиональный круг пользователей. Зарегистрироваться и дополнять примеры фраз на родном или изучаемом языке может любой желающий с базовыми навыками грамотности[3]. Для работы пользователям предлагается весь спектр имеющихся языков или возможность выборочного чтения с указанием языка оригинала и/или перевода. При этом для собственных переводов на Татоэба рекомендуется ориентироваться только на оригинал, так как сопутствующие переводы могут быть неточными[3]. Обсуждение нюансов перевода возможно тут же в комментариях к каждому из предложений.
Накапливаемый таким образом материал может бесплатно распространяться для всех видов использования, включая коммерческое, при отсылке на источник по лицензии CC-BY[8]. На сайте имеются ссылки для скачивания всего корпуса материалов[9] или его частей[10]. Единственным ограничением контента является запрет на фразы, защищенные авторским правом согласно французскому законодательству.
Каждой фразе при внесении на платформу присваивается порядковый номер, однако некоторые вклады (машинный перевод, дубликаты, неоконченные фразы и проч.) впоследствии удаляются. Процент удаления может быть вычислен при сравнении последнего порядкового номера (открыть верхнюю фразу в списке последних вкладов на лицевой) со счётчиком фраз на лицевой странице. Например, 12 дек. 2011 они составили, соответственно, 1295340 и 1241274.
Грамматически верные фразы, недостаточно соответствующие друг другу в качестве переводов, могут быть разъединены (перестают отображаться как цепочка), но не удаляются. Они сохраняются в базе проекта как отправные точки для новых переводов. История модификаций каждой из фраз, а также соединений/разъединений между ними прилагается при каждой фразе и видна всем пользователям.
Поддерживаемые языки
На июль 2019 года сайт технически поддерживает 342 языка.[11] Начальным ресурсом для сайта стал англо-японский корпус языковых примеров проф. Ясухиро Танаки. В декабре 2010 года Татоэба содержала более 648 000 предложений; в апреле 2012 эта цифра почти достигла 1.5 млн, 12 января составила 2 037 379. Наибольшее количество фраз (по убывающей, февраль 2013):
Кроме того, есть более тысячи предложений на следующих языках: арабский, исландский, хинди, уйгурский, вьетнамский, норвежский (букмол), белорусский, шанхайский и кантонский диалекты китайского языка.
Наряду с естественными языками в проекте фигурируют искусственные: эсперанто, клингон, интерлингва, CycL, токипона.
Первоначально для введения нового языка было достаточно лишь обратиться к администраторам и внести на нём пять примеров. Впоследствии необходимым требованием стало наличие сертификации вносимого языка согласно стандарту ISO 639-3. При заявке на добавление нового языкового раздела можно предложить флаг-символ, который его обозначит на сайте; этот графический знак не обязан представлять конкретное государство из современных либо существовавших ранее[12].
Аудио
Помимо письменной передачи предложений, платформа Татоэба коллекционирует их произношение. (Поэтому участникам запрещается вводить предложения с вариантами грамматических и лексических форм в скобках, которые потребовали бы более чем один вариант прочтения). Для участия в пополнении аудиораздела необходимо пройти аккредитацию, доказывающую качество записываемых примеров. По этой причине аудиоразделы Татоэба пополняются сравнительно медленно.
Активность и формы сотрудничества
Открытость и доступность, в сочетании с удобством сайта, привела к устойчивому росту его популярности. (График активности сайта[13] фиксирует количество новых языковых примеров начиная с 30 сентября 2007). В декабре 2010 года количество ежедневных посетителей составляло ок. 1 800[14], которые добавляли до полутора-двух тысяч примеров в день. К 2013 году вторая цифра возросла до 2,5-3 тысяч.
Татоэба выступает за открытость и свободу Интернета в проекте Mozilla Drumbeat в числе нескольких сотен других проектов-участников.
Татоэба содействует многим электронным словарям и переводчикам — например, электронному словарю японского языка WWWJDIC[15]. Татоэба сотрудничает с проектом Shtooka — бесплатной коллекцией аудиозаписей слов, фраз, пословиц и т. п. на различных языках[16]. Материал платформы используется в электронных словарях Glosbe[17].
На базе Татоэба разработано приложение для самостоятельного изучения языков при помощи компьютерных флэш-карточек ТаТоТэн[18].
Ссылки
- Татоэба — главная страница проекта
- Вики-Татоэба (англ.) — сопровождающий сайт (принципы работы, история проекта, технические подробности)
- Статья про Татоэба на Лингвовики
- Введение в проект Татоэба (недоступная ссылка) — видеоролик, объясняющий суть проекта и его работу (англ.)
- Татоэба — участник интернет-проекта Mozilla Drumbeat (англ.)
- Обзор проекта на сайте Магазета
- Краткий обзор Татоэба на сайте Джунга (крупнейший русско-китайский интернет-словарь)
- Интервью Аллана Симона сайту Sinoglot.com, посвященному китайскому языку (англ.)
- Use tatoeba.org for mining sentences (англ.)
- Japonais, обучающая программа-переводчик для iPhone/iPod/iPad, использующие базу Татоэбы для немецкого и французского языков (англ.)
- Статья о корпусе Tanaka Corpus, базе данных фраз, с которой начинал свою работу проект Татоэба, на сайте Группы исследования и развития электронных словарей (англ.)
- Сайт японского словаря WWWJDIC (англ.)
- — вспомогательный сайт со статистикой и разъяснениями правил Татоэба.
- http://a4esl.com/temporary/tatoeba/links.html - приложения, использующие Татоэба.
- Сайт проекта Shtooka Архивная копия от 30 ноября 2010 на Wayback Machine (англ.)
- Сайт словаря WWWJDIC (англ.)
См. также
- Корпус текстов
- Корпусная лингвистика
- Reverso
- Linguee
- ABBYY Lingvo Live (веб-версия ABBYY Lingvo)
- Машинный перевод
- Forvo — интернет-платформа, коллекционирующая произношения слов.
Примечания
- tatoeba.org — Traffic Details from Alexa . Alexa Internet, Inc (англ.). Архивировано 6 июля 2012 года.
- tatoeba.org Competitive Analysis, Marketing Mix and Traffic - Alexa (англ.). Alexa Internet. — Глобальный рейтинг сайта Татоэба. Дата обращения: 28 октября 2017.
- Trang. How to be a good contributor in Tatoeba . Дата обращения: 27 декабря 2019.
- Tatoeba (Where to Learn) (недоступная ссылка). Teacherless (1 ноября 2010). Дата обращения: 27 декабря 2019. Архивировано 14 июля 2012 года.
- TRANG - Tatoeba . tatoeba.org. Дата обращения: 27 декабря 2019.
- Activity timeline - Tatoeba . tatoeba.org. Дата обращения: 27 декабря 2019.
- 我們試試看! - Mandarin Chinese example sentence - Tatoeba . tatoeba.org. Дата обращения: 27 декабря 2019.
- Rule 8. Do not add sentences from copyrighted content (англ.)
- Download sentences - Tatoeba . tatoeba.org. Дата обращения: 27 декабря 2019.
- All public lists (1,232) - Tatoeba . tatoeba.org. Дата обращения: 27 декабря 2019.
- Предложения на неизвестный — Tatoeba (недоступная ссылка). tatoeba.org. Дата обращения: 27 декабря 2019. Архивировано 20 июня 2013 года.
- FAQ . en.wiki.tatoeba.org. Дата обращения: 27 декабря 2019.
- График активности: — Tatoeba . tatoeba.org. Дата обращения: 27 декабря 2019.
- If Tatoeba.org was a country, it would be larger than Niue with its 1,809 daily visitors! (недоступная ссылка) (недоступная ссылка с 13-05-2013 [3213 дней]) (англ.)
- WWWJDIC . users.monash.edu. Дата обращения: 27 декабря 2019.
- Shtooka Project Download Архивная копия от 1 декабря 2010 на Wayback Machine (англ.)
- Интернет словарь с более чем 1 000 языков и 40 000 000 переводов (англ.). Glosbe. Дата обращения: 27 декабря 2019.
- tatoten - TaToTen (недоступная ссылка). tatoten.com. Дата обращения: 27 декабря 2019. Архивировано 27 декабря 2019 года.