Google Переводчик

Google Переводчик (англ. Google Translate) — веб-служба компании Google, предназначенная для автоматического перевода части текста или веб-страницы на другой язык. Для некоторых языков пользователям предлагаются варианты переводов, например, для технических терминов, которые должны быть в будущем включены в обновления системы перевода.

Google Translate (Переводчик)
URL translate.google.com
Тип сайта Переводчик
Регистрация Нет
Язык(-и) 108[1]
Владелец Google
Автор Google
Начало работы

28 апреля 2006 г. (как статистический машинный перевод)

15 Ноября 2016 г. (как нейронный машинный перевод)
Текущий статус Активен
 Медиафайлы на Викискладе

В отличие от других сервисов перевода, таких как Babel Fish и AOL, которые используют технологию SYSTRAN, Google использует собственное программное обеспечение. Предполагается, что компания использует самообучаемый алгоритм машинного перевода[2]. В марте 2017 года Google полностью перевела движок перевода на нейросети для более качественного перевода.[3] Является одним из самых скачиваемых приложений в мире, в марте 2021 года количество скачиваний переводчика достигло отметки в 1 млрд[4].

Возможности

Сервис Google переводчика включает в себя также перевод всей веб-страницы и даже одновременный поиск информации с переводом на другой язык. Для веб-дизайнеров сотрудниками компании был разработан скрипт, который позволяет организовать перевод сайта на все доступные языки[5].

Google Переводчик, как и другие инструменты автоматического перевода, имеет свои ограничения. Этот инструмент может помочь читателю понять общий смысл содержания текста на иностранном языке, он не предоставляет точных переводов. Постоянно ведётся работа над качеством перевода, разрабатываются переводы на другие языки[6].

Поддерживаемые языки

На январь 2022 в переводчике доступны 109 языков[1]:

  1. азербайджанский
  2. албанский
  3. амхарский
  4. английский
  5. арабский
  6. армянский
  7. африкаанс
  8. баскский
  9. белорусский
  10. бенгальский
  11. бирманский
  12. болгарский
  13. боснийский
  14. валлийский
  15. венгерский
  16. вьетнамский
  17. гавайский
  18. галисийский
  19. греческий
  20. грузинский
  21. гуджарати
  22. датский
  23. зулу
  24. иврит
  25. игбо
  26. идиш
  27. индонезийский
  28. ирландский
  29. исландский
  30. испанский
  31. итальянский
  32. йоруба
  33. казахский
  34. каннада
  35. каталанский
  36. киргизский
  37. китайский
  38. корейский
  39. корсиканский
  40. креольский (Гаити)
  41. курманджи
  42. кхмерский
  43. кхоса
  44. лаосский
  45. латинский
  46. латышский
  47. литовский
  48. люксембургский
  49. македонский
  50. малагасийский
  51. малайский
  52. малаялам
  53. мальтийский
  54. маори
  55. маратхи
  56. монгольский
  57. немецкий
  58. непальский
  59. нидерландский
  60. норвежский
  61. ория
  62. панджаби
  63. персидский
  64. польский
  65. португальский
  66. пушту
  67. руанда
  68. румынский
  69. русский
  70. самоанский
  71. себуанский
  72. сербский
  73. сесото
  74. сингальский
  75. синдхи
  76. словацкий
  77. словенский
  78. сомалийский
  79. суахили
  80. сунданский
  81. таджикский
  82. тайский
  83. тамильский
  84. татарский
  85. телугу
  86. турецкий
  87. туркменский
  88. узбекский
  89. уйгурский
  90. украинский
  91. урду
  92. филиппинский
  93. финский
  94. французский
  95. фризский (западнофризский)
  96. хауса
  97. хинди
  98. хмонг
  99. хорватский
  100. чева
  101. чешский
  102. шведский
  103. шона
  104. шотландский (гэльский)
  105. эсперанто
  106. эстонский
  107. яванский
  108. японский

Дополнительное направление перевода — китайский традиционный, где ряд иероглифов имеют более сложное начертание.

Этапы

История (в хронологическом порядке введения):

1-й этап

С английского на французский и обратно

С английского на немецкий и обратно

С английского на испанский и обратно

2-й этап

С английского на португальский и обратно

3-й этап

С английского на итальянский и обратно

4-й этап

С английского на китайского (упрощенный) и обратно

С английского на японский и обратно

С английского на корейский и обратно

5-й этап (запущен 28 апреля 2006 года)

С английского на арабский и обратно

6-й этап (запущен 16 декабря 2006 года)

С английского на русский и обратно

7-й этап (запущен 9 февраля 2007 года)

С английского на китайский (традиционный) и обратно

С китайского (упрощенного) на китайский (традиционный) и обратно

8-й этап (все 25 языковых пар используют систему машинного перевода Google) (запущен 22 октября 2007 года)

С английского на голландский и обратно

С английского на греческий и обратно

9-й этап

С английского на хинди и обратно

10-й этап (на данном этапе перевод может осуществляться между любыми двумя языками, при необходимости используя английский как промежуточный этап) (запущен 8 мая 2008 года)

Болгарский

Хорватский

Чешский

Датский

Финский

Норвежский (Букмол)

Польский

Румынский

Шведский

11-й этап (стартовал 25 сентября 2008 года)

Каталонский

филиппинский (тагальский)

Иврит

индонезийский

латышский

Литовский

Сербский

Словацкий

Словенский

Украинский

Вьетнамский

12-й этап (запущен 30 января 2009 года)

Албанский

эстонский

Галисийский

венгерский

мальтийский

Тайский

турецкий

13-й этап (запущен 19 июня 2009 года)

персидский

14-й этап (запущен 24 августа 2009 года)

африкаанс

Белорусский

исландский

ирландский

македонский

Малайский

Суахили

валлийский

идиш

15 этап (запущен 19 ноября 2009 года)

Бета-стадия завершена. Теперь пользователи могут выбрать латиницу для белорусского, болгарского, китайского, греческого, хинди, японского, корейского, русского, тайского и украинского языков. Для переводов с арабского, хинди и персидского языков пользователь может ввести латинскую транслитерацию текста, и текст будет транслитерирован в родной шрифт этих языков по мере набора текста. Теперь текст может быть прочитан программой преобразования текста в речь на английском, французском, немецком и итальянском языках.

16-й этап (запущен 30 января 2010 года)

гаитянский креольский

17-й этап (запущен в апреле 2010 года)

Запущена речевая программа на хинди и испанском языке.

18-й этап (запущен 5 мая 2010 года)

Запущена речевая программа на африкаанс, албанском, каталанском, китайском (мандаринском), хорватском, чешском, датском, голландском, финском, греческом, венгерском, исландском, индонезийском, латышском, македонском, норвежском, польском, португальском, румынском, русском, сербском, словацком, суахили, шведском, турецком, вьетнамском и валлийском (на основе eSpeak).

19-й этап (запущен 13 мая 2010 года)

Армянский

Азербайджанский

Баскский

Грузинский

Урду

20-й этап (запущен в июне 2010 года)

Обеспечивает латинизацию арабского языка.

21-й этап (запущен в сентябре 2010 года)

Позволяет набирать фонетический текст для арабского, греческого, хинди, персидского, русского, сербского и урду.

Латинский

22-й этап (запущен в декабре 2010 года)

Удалена латинизация арабского языка.

Добавлена проверка орфографии.

Для некоторых языков Google заменил синтезаторы преобразования текста в речь с голоса робота eSpeak на технологии естественного голоса носителя языка производства компании SVOX (китайский, чешский, датский, голландский, финский, греческий, венгерский, норвежский, польский, португальский, русский, шведский и турецкий), а также старые версии французского, немецкого, итальянского и испанского языков; латынь использует тот же синтезатор, что и итальянский.

Речевая программа запущена на арабском, японском и корейском языках.

23-й этап (запущен в январе 2011 года)

Выбор различных переводов для одного слова.

24-й этап (запущен в июне 2011 года)

5 новых индикаторских языков (в альфа-версии) и транслитерированный метод ввода:

Бенгальский

Гуджарати

Каннада

Тамильский

Телугу

25-й этап (запущен в июле 2011 года)

Введен рейтинг переводов.

26-й этап (запущен в январе 2012 года)

Голландский синтезатор мужского голоса заменен на женский.

Елена от SVOX заменила словацкий голос eSpeak.

Добавлена транслитерация идиша.

27-й этап (запущен в феврале 2012 года)

Запущена речевая программа на тайском языке.

Эсперанто

28-й этап (запущен в сентябре 2012 года)

Лаос

29-й этап (запущен в октябре 2012 года)

Добавлена транслитерация лаосского языка. (альфа-статус)

30-й этап (запущен в октябре 2012 года)

Запущена новая речевая программа на английском языке.

31-й этап (запущен в ноябре 2012 года)

Новая речевая программа на французском, немецком, итальянском, латинском и испанском языках.

32-й этап (запущен в марте 2013 года)

Добавлен разговорник.

33-й этап (запущен в апреле 2013 года)

Кхмерский

34-й этап (запущен в мае 2013 года)

боснийский

Себуано

Хмонг

яванский

Маратхи

35-й этап (запущен в мае 2013 года)

16 дополнительных языков могут быть использованы с помощью камеры-входа: Болгарский, каталанский, хорватский, датский, эстонский, финский, венгерский, индонезийский, исландский, латышский, литовский, норвежский, румынский, словацкий, словенский и шведский.

36-й этап (запущен в декабре 2013 года)

Хауса

Игбо

Маори

Монгольский

Непали

Пенджаби (гурмухи)

Сомали

Йоруба

Зулу

37-й этап (запущен в июне 2014 года)

Добавлены определения слов.

38-й этап (начат в декабре 2014 года)

Бирманский

Чева

Казахский

Малагасийский

Малаялам

Сингальский

Сото

сунданский

Таджикский

узбекский

39-й этап (запущен в октябре 2015 года)

Восстановлена транслитерация арабского языка.

40-й этап (запущен в ноябре 2015 года)

Ауребеш

41-й этап (запущен в феврале 2016 года)

Ауребеш удален.

Запущена речевая программа на бенгальском языке.

Амхарский

Корсиканский

Гавайский

Курдский (курманджи)

Кыргызский

Люксембургский

Пушту

Самоанский

шотландский гэльский

Шона

Синдхи

Западнофризский

Кхоса

42-й этап (запущен в сентябре 2016 года)

Запущена речевая программа на украинском языке.

43-й этап (запущен в декабре 2016 года)

Запущена речевая программа на кхмерском и сингальском языках.

44-й этап (запущен в июне 2018 года)

Запуск речевой программы на бирманском, малаялам, маратхи, непали и телугу.

45-й этап (запущен в сентябре 2019 года)

Запуск речевой программы на языках гуджарати, каннада и урду.

46-й этап (запущен в феврале 2020 года).

Киньяруанда

Одиа

Татарский

Туркменский

Уйгурский

47-й этап (запущен в феврале 2021 года)

Запущена речевая программа на африкаанс, болгарском, каталанском, иврите, исландском, латышском, малайском и сербском языках (изменена с eSpeak на естественный голос).

Новая речевая система (WaveNet) для нескольких языков.

Языки в разработке и бета-версии

Следующие языки пока не поддерживаются Google Translate, но доступны в сообществе Translate. По состоянию на январь 2022 года в разработке находится 126 языков, из которых 25 - в бета-версии.

Языки в бета-версии ближе к публичному релизу и имеют эксклюзивную дополнительную возможность участия, которая позволяет оценить до 4 переводов бета-версии путем перевода английского текста объемом до 50 символов.

В настоящее время существует петиция за то, чтобы Google добавил язык кри в Google Translate, но по состоянию на январь 2022 года он еще не входит в число языков, находящихся в разработке.

Ачехский

Адыгейский

Афар БЕТА

Арагонский

Ассамский БЕТА

Аварский (аварский)

Аймара БЕТА

Багели

Белуджи (белуджский)

Бамбара БЕТА

Бангала

Бауле

Башкирский

Берберский (тамазитский) БЕТА

Бетави

Бходжпури БЕТА

Бодо (Индия) БЕТА

Бретонский

Кантонский

Чеченский

Чероки

Чхаттисгархи

Читтагонский

Чувашский

Декани

Дхолуо

Догри БЕТА

Дьюла

Дзонгкха

Эдо

Эфик

Эсан

Эве

Фон

Фула (Фулах) БЕТА

Гагауз

Гархвали

Гренландский (калааллисут)

Гуарани БЕТА

Харьянви

Хилигайнон

Инуктитут

Илокано (Илоко)

Исоко

Камба

Канури

Капампанган (Пампанга)

Карачай-Балкар

Каракалпак (Кара-Калпак)

Кашмири

Кедах Малайский

Хакас

Кхандеши (Ахирани)

Хорасани Тюркский

Кикуйю

Кокборок (Трипури)

Крио

Кумыкский

Курдский (сорани) БЕТА

Kʼicheʼ

Лакота

Лингала БЕТА

Луба-касаи (тшилуба)

Луба-Катанга

Луганда БЕТА

Мадуресе

Магахи

Майтили

Мальдивский (дивехи) БЕТА

Марвари

Мазандерани

Мейтей (Манипури) БЕТА

Минангкабау

Мизо

Черногория

Мосси

Навахо

ньюар (непалбхаса) БЕТА

Нигерийский пиджин

Северный саами

Северный сото

Окситанский

Оромо БЕТА

Паттани Малайский

Кашкай

Кечуа БЕТА

Раджастхани

Рангпури (Камтапури)

Рохинья

Романш

Садри

Салар

Самогитский

Санго

Санскрит БЕТА

Сантали БЕТА

Сарайки БЕТА

Серрано

Шор

Сибирско-татарский

Сицилийский

Южный Алтай

Южный ндебеле

Сурджапури

Суахили Конго

Силхети

Тибетский БЕТА

Тигринья БЕТА

Тив

Тоба Батак (Батак Тоба)

Ток Писин

Тонга (Замбия и Зимбабве) (Читонга)

Тсонга (Кситсонга) БЕТА

Тсвана (сетсвана)

Тсва

Тувинский (тувинцы)

Тви БЕТА

Урхобо

Урум

Вархади (Вархади-Нагпури)

Венда (Тшивенда)

Волоф

Якутский

Юкатек майя (юкатеко)

Заза

Чжуан

Особенности и недостатки

Из-за того, что выдача вариантов контролируется статистическим алгоритмом, при переводе обычных общеупотребительных слов Google Переводчик может предлагать в числе возможных вариантов нецензурные слова. На результат выдачи также можно повлиять, массово предлагая некий, в том числе заведомо неверный вариант перевода.

Google Переводчик предлагает перевод с любого поддерживаемого языка на любой поддерживаемый, но в большинстве случаев реально выполняет перевод через английский. Иногда качество от этого сильно страдает. Например, при переводе с польского на русский обычно нарушаются падежи (даже когда они в русском и польском одинаковы). Есть также языки, которые проходят двойной процесс обработки перевода сначала через близко-родственный язык, потом через английский. Ниже приведены языки, проходящие данный алгоритм:

Точность

Google Translate не так надежен, как человеческий перевод. Если текст хорошо структурирован, написан формальным языком, содержит простые предложения, относится к формальным темам, по которым имеется достаточное количество обучающих данных, он часто производит преобразования, схожие с человеческим переводом между английским и рядом языков с высоким уровнем ресурсов[7][8]. Точность снижается для этих языков, когда применяется меньше из этих условий, например, когда увеличивается длина предложения или в тексте используется знакомый или литературный язык. Для многих других языков, по сравнению с английским, он может передать суть текста в этих формальных обстоятельствах[9]. Человеческая оценка с английского на все 102 языка показывает, что основная идея текста передается более чем в 50% случаев для 35 языков. Для 67 языков минимально понятный результат не достигается в 50% случаев и более[10]. В нескольких исследованиях оценивался перевод с китайского, французского, немецкого и испанского языков на английский, но систематическая оценка перевода с большинства языков Google Translate на английский человеком не проводилась. Спекулятивные оценки перевода с одного языка на другой, экстраполированные на результаты измерений перевода с английского на другие языки[11], показывают, что Google Translate будет выдавать результаты перевода, передающие суть текста с одного языка на другой, более чем в половине случаев примерно в 1% языковых пар, где ни один из языков не является английским[12].

При использовании в качестве словаря для перевода отдельных слов Google Translate очень неточен, поскольку ему приходится угадывать многозначные слова. Среди 100 лучших слов английского языка, составляющих более 50 % всего письменного английского языка, среднее слово имеет более 15 смыслов,[13] что делает шансы на правильный перевод примерно 15 к 1, если каждый смысл соответствует отдельному слову в языке перевода. Большинство распространенных английских слов имеют как минимум два смысла, что дает шансы 50/50 в вероятном случае, если в языке перевода для этих разных смыслов используются разные слова. Аналогичные шансы наблюдаются и в других языках. Google Translate делает статистические предположения, которые повышают вероятность получения наиболее частого значения слова, в результате чего точный перевод будет недостижим в случаях, не соответствующих большинству или множеству встречаемости в корпусе. Точность предсказания по одному слову не измерялась ни для одного языка. Поскольку почти все пары неанглийских языков образуются через английский, вероятность получения точного однословного перевода с одного неанглийского языка на другой можно оценить, умножив количество смыслов в исходном языке на количество смыслов, которые каждый из этих терминов имеет в английском. Когда в словаре Google Translate нет слова, он придумывает результат в рамках своего алгоритма[14].

Неточность Google Translate можно проиллюстрировать на примере перевода с одного языка на другой, а затем обратно на исходный язык. Это часто приводит к бессмысленным конструкциям, а не к восстановлению оригинального текста.

Примечания

  1. В Google Переводчик добавлено пять новых языков. Официальный блог Google Россия. Дата обращения: 27 февраля 2020.
  2. Франц Джозеф Ок подтвердил это во время своей запланированной речи на 10-м Саммите Машинного перевода, прошедшем в 2005 году, заявив, что они (Google) больше не нуждаются в правилах.
  3. Нейросети для перевода: на русском и других языках (7 марта 2017). Дата обращения: 7 марта 2017.
  4. Переводчик Google стал одним из самых популярных приложений Google Play. Его скачали более миллиарда раз. iXBT.com. Дата обращения: 5 апреля 2021.
  5. Google переводчик радует нас новыми возможностями (недоступная ссылка). Дата обращения: 10 января 2010. Архивировано 6 февраля 2010 года.
  6. Современный «умный» онлайн переводчик (недоступная ссылка). Дата обращения: 10 января 2010. Архивировано 5 февраля 2010 года.
  7. Benjamin, Martin The 5 conditions for satisfactory approximations with Google Translate. Teach You Backwards (2019). Дата обращения: 26 декабря 2019.
  8. McGuire, Nick How accurate is Google Translate in 2018?. ARGO Translation (July 26, 2018). Дата обращения: 29 ноября 2018.
  9. Benjamin, Martin Empirical Evaluation of Google Translate across 102 Languages. Teach You Backwards (2019). Дата обращения: 26 декабря 2019.
  10. Benjamin, Martin Source data for Teach You Backwards: An In-Depth Study of Google Translate for 103 Languages. Teach You Backwards (2019). Дата обращения: 24 декабря 2019.
  11. Benjamin, Martin Evaluation Scores of Google Translate in 102 Languages. Teach You Backwards (2019). Дата обращения: 26 декабря 2019.
  12. Benjamin, Martin Empirical Evaluation - Non-English Pairs. Teach You Backwards (2019). Дата обращения: 26 декабря 2019.
  13. Benjamin, Martin Polysemy in top 100 Oxford English Corpus words within Wiktionary. Teach You Backwards (2019). Дата обращения: 26 декабря 2019.
  14. Benjamin, Martin Ooga Booga: Better than a Dictionary. Teach You Backwards (2019). Дата обращения: 25 декабря 2019.

Ссылки

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.