Нейронный машинный перевод Google

Нейронный машинный перевод Google (GNMT) — это система нейронного машинного перевода (NMT), разработанная компанией Google и представленная в ноябре 2016 года, которая использует искусственную нейронную сеть для повышения беглости и точности перевода в Google Переводчике.[1][2][3]

GNMT улучшает качество перевода, применяя метод машинного перевода на основе примеров (EBMT), в котором система “обучается на миллионах примеров”.[2] Предлагаемая архитектура системного обучения GNMT была впервые опробована на более, чем ста языках, поддерживаемых Google Переводчиком.[2] Благодаря большой сквозной структуре, система со временем учится создавать более качественные и естественные переводы.[1] GNMT способна переводить предложения целиком, а не по частям.[1] Сеть GNMT может выполнять интерлингвальный машинный перевод, кодируя семантику предложения вместо того, чтобы запоминать переводы отдельных фраз.[2][4]

История

Проект Google Brain был создан в 2011 году в “секретной исследовательской лаборатории Google X”[5] Джеффом Дином, сотрудником Google, Грегом Коррадо, исследователем из Google, и Эндрю Ыном, профессором компьютерных наук Стэнфордского университета.[6][7][8] Работа Ына легла в основу одного из самых больших технологических прорывов в Google и Стэнфорде.[5]

В сентябре 2016 года исследовательская группа Google объявила о разработке системы перевода GNMT, и к ноябрю Google Переводчик начал использовать нейронный машинный перевод (NMT) вместо прежних статистических методов (SMT)[1][9][10][11], которые использовались с октября 2007 года внутри собственной закрытой SMT системы.[12][13]

Система NMT внутри Google Переводчика использует большую искусственную нейронную сеть, пригодную для глубинного обучения.[1][2][3] Изучая миллионы примеров, GNMT улучшает качество перевода, используя более широкий контекст для вывода наиболее подходящего перевода. Затем результат перестраивается и адаптируется для соответствия грамматике человеческого языка. GNMT не создала свой внутренний универсальный язык, а скорее стремилась найти общее между многими языками, что должно быть интересно больше для психологов и лингвистов, чем для специалистов в области информатики.[14] Новый движок перевода был включен в обе стороны для девяти языков: английского, французского, немецкого, испанского, португальского, китайского, японского, корейского и турецкого в 2016 году.[15] В марте 2017 года были добавлены ещё три языка: русский, хинди и вьетнамский.[16] В том же месяце с помощью сообщества Google Переводчика была добавлена поддержка иврита и арабского языка.[17] Далее в конце апреля 2017 года была добавлена поддержка девяти индийских языков, а именно: хинди, бенгали, маратхи, гуджарати, пенджаби, тамильский, телугу, малаялам и каннада.[18]

Языки, поддерживаемые GNMT

Ниже приведён список языковых пар, в которых для перевода используется модель нейронного машинного перевода Google (NMT). По состоянию на июль 2017 года для всех языков поддерживается только перевод на английский язык и обратно:[19]

Языковая пара Коды языков
1 Африкаанс <-> Английский af <-> en
2 Арабский <-> Английский ar <-> en
3 Болгарский <-> Английский bg <-> en
4 Китайский (упрощенный) <-> Английский zh-CN <-> en
5 Китайский (традиционный) <-> Английский zh-TW <-> en
6 Хорватский <-> Английский hr <-> en
7 Чешский <-> Английский cs <-> en
8 Датский <-> Английский da <-> en
9 Голландский <-> Английский nl <-> en
10 Французский <-> Английский fr <-> en
11 Немецкий <-> Английский de <-> en
12 Греческий <-> Английский el <-> en
13 Иврит <-> Английский iw <-> en
14 Хинди <-> Английский hi <-> en
15 Исландский <-> Английский is <-> en
16 Индонезийский <-> Английский id <-> en
17 Итальянский <-> Английский it <-> en
18 Японский <-> Английский ja <-> en
19 Корейский <-> Английский ko <-> en
20 Норвежский <-> Английский no <-> en
21 Польский <-> Английский pl <-> en
22 Португальский <-> Английский pt <-> en
23 Румынский <-> Английский ro <-> en
24 Русский <-> Английский ru <-> en
25 Словацкий <-> Английский sk <-> en
26 Испанский <-> Английский es <-> en
27 Шведский <-> Английский sv <-> en
28 Тайский <-> Английский th <-> en
29 Турецкий <-> Английский tr <-> en
30 Вьетнамский <-> Английский vi <-> en

Прямой перевод

Утверждается, что система GNMT лучше предыдущего варианта Google Переводчика тем, что она может выполнять “прямой перевод”, т.е. переводить с одного языка на другой напрямую (например, с японского на корейский).[2] Ранее Google Переводчик сначала переводил с исходного языка на английский, а затем с английского на конечный язык вместо прямого перевода с одного языка на другой.[4]

См. также

Ссылки

  1. Barak Turovsky (November 15, 2016), Found in translation: More accurate, fluent sentences in Google Translate, <https://blog.google/products/translate/found-translation-more-accurate-fluent-sentences-google-translate/>. Проверено 11 января 2017.
  2. Mike Schuster, Melvin Johnson, and Nikhil Thorat (November 22, 2016), Zero-Shot Translation with Google’s Multilingual Neural Machine Translation System, <https://research.googleblog.com/2016/11/zero-shot-translation-with-googles.html>. Проверено 11 января 2017.
  3. Gil Fewster (January 5, 2017), The mind-blowing AI announcement from Google that you probably missed, <https://medium.freecodecamp.com/the-mind-blowing-ai-announcement-from-google-that-you-probably-missed-2ffd31334805#.msj1mdvbh>. Проверено 11 января 2017. Архивная копия от 31 мая 2017 на Wayback Machine
  4. Boitet, Christian; Blanchon, Hervé; Seligman, Mark; Bellynck, Valérie MT on and for the Web (PDF) (недоступная ссылка) (2010). Дата обращения: 1 декабря 2016. Архивировано 29 марта 2017 года.
  5. Robert D. Hof. A Chinese Internet Giant Starts to Dream: Baidu is a fixture of online life in China, but it wants to become a global power. Can one of the world’s leading artificial intelligence researchers help it challenge Silicon Valley’s biggest companies?. Technology Review (August 14, 2014). Дата обращения: 11 января 2017.
  6. Using large-scale brain simulations for machine learning and A.I.. Official Google Blog (26 June 2012). Дата обращения: 26 января 2015.
  7. Google's Large Scale Deep Neural Networks Project. Дата обращения: 25 октября 2015.
  8. Markoff, John How Many Computers to Identify a Cat? 16,000. New York Times (June 25, 2012). Дата обращения: 11 февраля 2014.
  9. Katyanna Quach (November 17, 2016), Google's neural network learns to translate languages it hasn't been trained on: First time machine translation has used true transfer learning, <https://www.theregister.co.uk/2016/11/17/googles_neural_net_translates_languages_not_trained_on>. Проверено 11 января 2017.
  10. Lewis-Kraus, Gideon. The Great A.I. Awakening, The New York Times (December 14, 2016). Дата обращения 11 января 2017.
  11. Le, Quoc; Schuster, Mike A Neural Network for Machine Translation, at Production Scale. Google Research Blog. Google (September 27, 2016). Дата обращения: 1 декабря 2016.
  12. Google Switches to its Own Translation System, October 22, 2007
  13. Barry Schwartz. Google Translate Drops SYSTRAN for Home-Brewed Translation. Search Engine Land (October 23, 2007).
  14. Chris McDonald (January 7, 2017), Commenting on Gil Fewster's January 5th article in the Atlantic, <https://medium.com/@chrismcdonald_94568/ok-slow-down-516f93f83ac8#.l0ti3ct0b>. Проверено 11 января 2017.
  15. Turovsky, Barak Found in translation: More accurate, fluent sentences in Google Translate. The Keyword Google Blog. Google (November 15, 2016). Дата обращения: 1 декабря 2016.
  16. Turovsky, Barak Higher quality neural translations for a bunch more languages. The Keyword Google Blog. Google. Дата обращения: 6 марта 2017.
  17. Novet, Jordan Google now provides AI-powered translations for Arabic and Hebrew. VentureBeat (30 March 2017).
  18. Turovsky, Barak Making the internet more inclusive in India. The Keyword (April 25, 2017).
  19. Translation API Language Support. Google Cloud Platform (May 4, 2017).

Внешние ссылки

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.