Как работает reCAPTCHA

Прочитал недавно на хабре статью, которая буквально поразила меня.
Во-первых, стало понятно почему иногда выплывают капчи типа
такой.
Во-вторых, это одна из статей заработка корпорации Google. Деньги
делаются из воздуха. И это гениально! Наверное, каждый человек в
Интернете когда-нибудь да поработал на Google таким образом.
Начнём с начала. По сути, reCAPTCHA выполняет ту же функцию,
которую выполняют другие капчи. Суть проста, пользователь вводит
предложенный текст и тем самым доказывает, что он не робот. Главным
отличием от других систем является то, что reCAPTCHA не только
защищает сайт от спамеров, но еще и выполняет другую, достаточно
интересную функцию. Что это за функция?
Как вы, наверное, заметили, reCAPTCHA предлагает ввести два
слова, что практически не встречается у других капч. Суть в том,
что пользователь при вводе этих слов не только доказывает, что он
не робот, но еще и помогает распознавать старые книги и газеты.
Принцип работы прост:
Допустим, есть какая-то книга, которая сохранилась в малом
количестве экземпляров, при этом все они в плохом состоянии. Один
экземпляр в отсканированном виде попал в руки Google (владелец
reCAPTCHA). Что с ним делать? Правильно, оцифровать. Как цифровать?
Цифровать, используя системы распознавания символов (OCR). Но, как
многим известно, эти системы очень часто грешат многочисленными
ошибками в выданном результате (многие, наверное, пользовались
программой FineReader). Вручную перебирать весь текст на предмет
ошибок — слишком дорогое удовольствие. И вот, на помощь приходит
reCAPTCHA. Одно слово в изображении распозналось системой OCR
правильно, а вот второе никак нет. Второе слово — за пользователем,
именно то, что он введет будет использовано в качестве замены
ошибочному варианту, предложенным OCR. Наверняка, сейчас некоторые
усмехнутся. Да, я знаю про то, что фактически вместо второго слова
можно ввести что угодно. Но каждое непонятное для OCR слово
reCAPTCHA показывает пользователям сотни, а то и тысячи раз (при
цифре в 200 миллионов генераций в день это очень мало), и в
конечном итоге правильным считается тот вариант, который
пользователи вводили чаще всего.
От скучного текста перейдем к иллюстрациям:
Вот так выглядит отсканированный текст. Качество, можно сказать, не
на высоте, но давайте взглянем на результат работы OCR:
Красным выделены ошибки. Не правда ли, их слишком много? А теперь
посмотрим, что же будет результатом работы reCAPTCHA:
Не надо быть семи пядей во лбу, что бы увидеть разницу между OCR и
дуэтом OCR + reCAPTCHA. Оцифровка получилась 100% безошибочной.
Разумеется, это что-то вроде идеальной ситуации, где все
складывается так, как задумывалось создателями reCAPTCHA. Но,
наверняка, многие из вас сталкивались с абсолютно нечитаемыми
словами, предлагаемыми для ввода. Проблема в том, что некоторые
книги/газеты сохранились настолько плохо, что порой и вручную они
распознаются отвратительно. Вот пример:
Изображение отвратительного качества. Посмотрим, что тут сможет
сделать OCR…
… а ничего. Ошибки не подсвечены потому, что все это — одна большая
ошибка.
Зато силами reCAPTCHA результат становится вполне себе читаемым,
хоть и не безошибочным. Именно таким образом пользователи помогают
оцифровывать книжки средствами reCAPTCHA.
Вкратце: изображение, генерируемое reCAPTCHA, состоит из двух
отсканированных слов. Одно уже заведомо известно системе, насчет
второго же есть сомнения. Именно это второе слово и есть объект для
распознавания силами пользователей. Грубо говоря, интерфейс
reCAPTCHA мог бы выглядеть и вот так:
|
</> |
Ненавижу=(