Как работает reCAPTCHA

Прочитал недавно на хабре статью, которая буквально поразила меня.
Во-первых, стало понятно почему иногда выплывают капчи типа такой.

Во-вторых, это одна из статей заработка корпорации Google. Деньги делаются из воздуха. И это гениально! Наверное, каждый человек в Интернете когда-нибудь да поработал на Google таким образом.
Начнём с начала. По сути, reCAPTCHA выполняет ту же функцию, которую выполняют другие капчи. Суть проста, пользователь вводит предложенный текст и тем самым доказывает, что он не робот. Главным отличием от других систем является то, что reCAPTCHA не только защищает сайт от спамеров, но еще и выполняет другую, достаточно интересную функцию. Что это за функция?

Как вы, наверное, заметили, reCAPTCHA предлагает ввести два слова, что практически не встречается у других капч. Суть в том, что пользователь при вводе этих слов не только доказывает, что он не робот, но еще и помогает распознавать старые книги и газеты.
Принцип работы прост:
Допустим, есть какая-то книга, которая сохранилась в малом количестве экземпляров, при этом все они в плохом состоянии. Один экземпляр в отсканированном виде попал в руки Google (владелец reCAPTCHA). Что с ним делать? Правильно, оцифровать. Как цифровать? Цифровать, используя системы распознавания символов (OCR). Но, как многим известно, эти системы очень часто грешат многочисленными ошибками в выданном результате (многие, наверное, пользовались программой FineReader). Вручную перебирать весь текст на предмет ошибок — слишком дорогое удовольствие. И вот, на помощь приходит reCAPTCHA. Одно слово в изображении распозналось системой OCR правильно, а вот второе никак нет. Второе слово — за пользователем, именно то, что он введет будет использовано в качестве замены ошибочному варианту, предложенным OCR. Наверняка, сейчас некоторые усмехнутся. Да, я знаю про то, что фактически вместо второго слова можно ввести что угодно. Но каждое непонятное для OCR слово reCAPTCHA показывает пользователям сотни, а то и тысячи раз (при цифре в 200 миллионов генераций в день это очень мало), и в конечном итоге правильным считается тот вариант, который пользователи вводили чаще всего.
От скучного текста перейдем к иллюстрациям:

Вот так выглядит отсканированный текст. Качество, можно сказать, не на высоте, но давайте взглянем на результат работы OCR:

Красным выделены ошибки. Не правда ли, их слишком много? А теперь посмотрим, что же будет результатом работы reCAPTCHA:

Не надо быть семи пядей во лбу, что бы увидеть разницу между OCR и дуэтом OCR + reCAPTCHA. Оцифровка получилась 100% безошибочной.
Разумеется, это что-то вроде идеальной ситуации, где все складывается так, как задумывалось создателями reCAPTCHA. Но, наверняка, многие из вас сталкивались с абсолютно нечитаемыми словами, предлагаемыми для ввода. Проблема в том, что некоторые книги/газеты сохранились настолько плохо, что порой и вручную они распознаются отвратительно. Вот пример:

Изображение отвратительного качества. Посмотрим, что тут сможет сделать OCR…

… а ничего. Ошибки не подсвечены потому, что все это — одна большая ошибка.

Зато силами reCAPTCHA результат становится вполне себе читаемым, хоть и не безошибочным. Именно таким образом пользователи помогают оцифровывать книжки средствами reCAPTCHA.
Вкратце: изображение, генерируемое reCAPTCHA, состоит из двух отсканированных слов. Одно уже заведомо известно системе, насчет второго же есть сомнения. Именно это второе слово и есть объект для распознавания силами пользователей. Грубо говоря, интерфейс reCAPTCHA мог бы выглядеть и вот так:

Предыдущие записи блогера :

09.06.2011 — Ностальгия по детским играм

Архив записей в блогах:

Капрезе

Все еще не могу определиться с меню на завтрак, нужно что-то быстрое в приготовлении и не такое вредное, как бутерброд или хлопья с молоком. ...

Определены самые популярные записи моего блога за 2021 год

Вот уж не подозревал, что пост про Doping-Pong посмотрели больше 5 тысяч человек только в ЖЖ! 7 сердечек и 24 комментария... офигеть, наверное смотрели и им не нравились картинки. Мой ТОП за 2021 ...

А мне нравится"> А мне нравится

. А мне нравится " loading="lazy" /> . . Тем более на фоне всеобщего уныния и запустения, молодые телки выглядят очень аппетитно. Можно даже к продуктовому набору ветеранам выдавать вот такую молодую деваху в честь праздника. Смогут-не смогут, это уже другой вопрос и дело ...

На синхронный лад

Чем славится наш спорт, уж где точно (ТТТ) у нас нет конкурентов, - это синхронное плаванье. Думаю, после открытия нового, современного центра на территории бывшей промзоны ЗИЛ олимпийские медали в этом виде спорта обеспечены нам и в будущем. В Москве открыли Олимпийский центр ...

Пиарея. Первая в этом году.

...

Как работает reCAPTCHA

Как работает reCAPTCHA

Оставить комментарий

Популярные посты: