reCAPTCHA

ReCAPTCHA — система, разработанная в университете Карнеги — Меллон для защиты веб-сайтов от интернет-ботов и одновременной помощи в оцифровке текстов книг. Является продолжением проекта CAPTCHA[1]. В сентябре 2009 года reCAPTCHA была приобретена компанией Google. На начало 2011 года reCAPTCHA осуществляла оцифровку архивов газеты «The New York Times» и книг, доступных в Google Book Search.

reCAPTCHA
Тип Краудсорсинг
Автор
  • Luis von Ahn
  • Ben Maurer
  • Colin McMillen
  • Harshad Bhujbal
  • Manuel Blum
Разработчик Google
Первый выпуск 27 мая 2007 (2007-05-27)
Сайт google.com/recaptcha
 Медиафайлы на Викискладе

Весной 2012 года Google запустил эксперимент по распознаванию изображений из Google Maps и Google Street View с помощью сервиса ReCAPTCHA[2]. По состоянию на июль 2013 года, в сервисе ReCAPTCHA продолжают предлагаться для распознавания фрагменты снимков из Google Street View; как правило, это фрагменты, на которых изображены номера зданий. Таким образом, первоначальный девиз ReCAPTCHA — Stop Spam, Read Books — сегодня имеет мало общего с тем, для каких целей на самом деле используется эта система.

В самом начале 2015 года ReCAPTCHA была обновлена. Теперь пользователю предлагают просто поставить галочку в чекбоксе, после нажатия на чекбокс пользователю могут предложить выбрать все картинки, которые попадают под заранее установленные условия — например, выбрать все мотоциклы.

Принцип работы

reCAPTCHA практически не поддается обману программой распознавания текста. Второе слово берется из источника, требующего распознавания (например, книги). Проверка и прохождение «капчи» осуществляется по тому слову, которое известно системе. Неизвестное второе слово вводить не обязательно. Второе слово, введённое пользователем, сохраняется в системе и используется в качестве возможного варианта распознавания. Окончательное распознавание слова производится путём выбора слова, наиболее часто используемого для ввода. Система reCAPTCHA предоставляет пользователям изображения для распознавания и собирает результаты, после чего передает их организаторам оцифровки материалов[1].

Влияние

Система широко используется такими сайтами, как Facebook, TicketMaster, Twitter, StumbleUpon, Steam (10 января 2015), «Живой журнал» и примерно 350 000 других сайтов. В день оцифровывается примерно 100 миллионов слов, что может давать примерно 2,5 миллиона книг в год. Количество отдельных людей, которые помогли оцифровать как минимум одно слово из книги, оценивается в 750 миллионов человек[1]. Эффективность подобного метода достаточно высока, поскольку системе предоставляется несколько распознанных вариантов.

Поскольку слова выводятся в случайном порядке, то неизбежно возникают курьёзные сочетания слов. Это породило интернет-мем «inglip», когда люди делают снимок экрана двух слов, предоставленных системой reCAPTCHA и дорисовывают курьёзные рисунки[1].

В адрес графической версии reCAPTCHA появились шутки наподобие «найди вьетконговца» (на картинке — сплошные джунгли).

Критика

=== Общая === При подключении данного сервиса к сайту вам предлагают ограниченное количество запросов бесплатно. Алгоритмы reCAPTCHA умышленно выстраивают так чтобы пользователь делал как можно больше запросов,что приводит к превышению бесплатного лимита и вынуждает владельца сайта перейти на платную версию. Пользователи вынуждены вводить в два раза больше текста, чем требуется для данной формы теста Тьюринга, не получая за это никакого вознаграждения. Доход от использованного распознанного текста остаётся корпорации Google. Требуется работа JavaScript и в случае использования устаревшего браузера, посетителю навязывается обновление на браузер Google.

Тем не менее, держатели сайтов вправе оставить за собой выбор способа защиты от ботов.

При слишком частых запросах CAPTCH’и с одного IP адреса reCAPTCHA становится почти нечитаемой, что сильно осложняет её ввод при использовании программного обеспечения Tor (так как частота запроса капчи с выходных узлов тора намного больше, чем с обычного пользовательского IP). Кроме того, в подобных случаях оба слова, предлагаемых пользователю для распознавания, являются проверяемыми, то есть reCAPTCHA начинает действовать как любая другая система для защиты от ботов. Однако после очередного обновления алгоритма в reCaptcha заход на сайт стал затруднительным для многих пользователей, так, если человек зайдёт на сайт и начнёт разгадывать антибот, то она будет слишком медленной, но даже после того как он решит данную задачу правильно, антибот-система не зачтёт его ответ и попросит выбрать снова верные картинки, которые опять будут обновляться очень медленно, в итоге пользователь может потратить некоторое время (от нескольких минут) на решение данной задачи. Также появилось блокирование доступа к разгадыванию капчи с определённого IP-адреса, что делает невозможным использования её при входе на сайт, и хотя с динамическим ip-адресом можно назначить себе новый путём переподключения, статический ip не сможет быть использован.

Текстовые реализации

Пользователь не обязан вводить оба слова. Одно из них не проверяется, узнать его довольно легко: в разное время проверяемое слово «зашумлялось» двойным контуром, линиями и геометрическими искажениями. К тому же в непроверяемое слово иногда попадаются знаки препинания, текст на других языках, математические формулы и т. п. Также у непроверяемого слова возможна инверсия цветов фона и букв.

Сложное непроверяемое слово, оторванное от контекста, может быть опознано неверно. Например, Captain Infernet (Луи-Антуан Инфернэ́, участник Трафальгарской битвы) иногда опознавали как Internet[3].

Графические реализации

Некоторые картинки с трудом распознаются даже человеком. Возможны проблемы с неопределённостью вопроса, например: необходимо отметить автобусы, а на изображении троллейбус; выбор витрин может быть не очевиден, если показан застеклённый вход в здание.

Примечания

  1. Луис фон Ан: Массовое онлайн-сотрудничество // конференция TED, 2011
  2. Peretz Sarah. Google Now Using ReCAPTCHA To Decode Street View Addresses (недоступная ссылка) (29 марта 2012). Дата обращения: 14 августа 2012. Архивировано 18 августа 2012 года.
  3. The Gentleman's Magazine and Historical Chronicle.. Google Books. Дата обращения: 12 февраля 2012.

Ссылки

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.