Обзор ABBYY FineReader Express Edition for Mac 8.0

топ 100 блогов ru_mac08.03.2010 Вот реальная картинка: моя жена Мила, преподаватель восьми предметов, готовится к занятиям.

Обзор ABBYY FineReader Express Edition for Mac 8.0

Методички, планы уроков, учебники. Килограммы бумаги. Если существует ад для организаций, то Министерство Образования туда попадет именно за вырубку лесов. Пережить этот целлюлозный кошмар реально можно только лишь самостоятельно сканируя эти тексты и учебники, чтобы систематизировать информацию на компьютере и получить бесценную возможность поиска.

Простите меня заранее за такой рекламный слог, но OCR кириличных текстов — это одна из тех ниш, где лидер действительно очевиден, и это — ABBYY FineReader. С недавних пор FineReader снова доступен в версии для Мака, и полезность этой программы для учителя переоценить невозможно.

Приятно, что свежий FineReader в целом придерживается маковской идеологии интерфейса. Он простой и понятный, в нем нет ничего лишнего, и фокус внимания пользователя остается на документе. Мне не довелось увидеть прошлую версию, на которую в сети была масса нареканий, но интерфейс этой мне вполне нравится.

После запуска FineReader задает вопрос: что распознавать будем, на каких языках и в каком формате сохранить?

Обзор ABBYY FineReader Express Edition for Mac 8.0 New task

Затем FineReader приступает. Когда распознавание закончено, FineReader спрашивает, куда сохранять документ, и только после этого появляется типичный интерфейс. Там уже можно внести правки, и затем... распознать и сохранить документ заново. Это несколько сбивает с толку, и неудобно. По большому счету, это — единственный косяк в логике интерфейса.

Можно просто перетащить картинки на иконку в доке. Несколько файлов — несколько страничек. Поддерживается также и сканирование напрямую в FineReader.

Больше про интерфейс сказать нечего, и я считаю, что это очень хорошо.

Распознавание в боевых условиях

Распознанный документ можно сохранить как обычный текст, как документ с разметкой (в rtf), как HTML, как документ Microsoft Excel и как PDF с поиском.

Последний — особо интересен. Это PDFка, в которой вместо текста — изображение оригинального документа, но в нем можно выделять текст и искать:

Обзор ABBYY FineReader Express Edition for Mac 8.0 Searchable PDF

Чтобы понять, как хорошо работает OCR на практике, я взял несколько реальных живых примеров — развороты книжек, схемы, таблица. Позже я решил над программой поиздеваться.

Все примеры сфотографированы, а не отсканированы. Сейчас даже простая мобилка снимает с высоким разрешением и качеством. Поэтому для тестов я каждый оригинал сфотографировал двумя камерами — хорошей (зеркалка с обычной оптикой) и очень плохой (камера в iPhone 3G). Практически ни один кадр с айфона не распознался.

Все тесты проводились на Macbook Pro последней модели с процессором Core 2 Duo 2.26GHz и 4GB RAM.

Разворот Библии

Сложная задача: Библия напечатана на очень тонкой и просвечивающейся рисовой бумаге, и литеры в ней — маленькие. Распознавание этой картинки заняло ровно две минуты.

Обзор ABBYY FineReader Express Edition for Mac 8.0 Обзор ABBYY FineReader Express Edition for Mac 8.0

Мне сложно сказать, хорошо или плохо справился FineReader с распознаванием страницы, т.к. не с чем сравнить.

Но я попробовал повлиять на результат: загрузил фотографию разворота в графический редактор и значительно ее улучшил: прибрал шум, поправил экспозицию, повысил контраст, убрал просвечивающиеся буквы.

Обзор ABBYY FineReader Express Edition for Mac 8.0 Обзор ABBYY FineReader Express Edition for Mac 8.0

Что-то распозналось лучше, что-то хуже. Дальнейшие тесты с простой обработкой снимков показали, что оригинальная фотография практически всегда распознается не хуже. Значит, можно не тратить время на чистку картинок, а это — огромная экономия времени.

Окей, попробуем теперь вручную показать программе колонки с текстом.

Обзор ABBYY FineReader Express Edition for Mac 8.0

Документ был распознан за 1:10, качество распознавания — радикально выше.

Обзор ABBYY FineReader Express Edition for Mac 8.0

Обратите внимание на совсем маленькие слова возле сгиба внизу страницы, и насколько лучше они распознаны в этом варианте.

Как влияет экспозиция?

Я предположил, что важнейший параметр, влияющий на распознавание картинки — это яркость (экспозиция) изображения. Для того, чтобы это проверить, я сделал три разных по яркости снимка идеального текста (светлый, нормальный, темный), и сравнил результаты. Как видно, экспозиция на качество распознавания влияет не очень сильно. В самом светлом тексте на одну ошибку меньше и пробелы расставлены лучше. Распознавание всех трех вариантов вместе заняло 36 сек.

Кстати, как красиво FineReader распознал цвета текста в слишком светлом кадре! :) Буквы там уже фиолетовые.

Кривая страничка

Окей, типовой случай — страничка учебника с очень плотным переплетом (не разогнуть), сфотографированная слегка криво.

Обзор ABBYY FineReader Express Edition for Mac 8.0 Обзор ABBYY FineReader Express Edition for Mac 8.0

38 сек. Первая страничка получилась прекрасно, а вот вторая — увы. Убить одним сканом двух зайцев не получилось. Впрочем, с учетом того, насколько низкого качества картинка справа внизу, можно только диву даться, что FineReader там вообще что-то увидел.

Вариант, как мне казалось, посложнее — список литературы. Сплошные пробелы, инициалы, знаки препинания. Процесс занял 10 секунд, распозналось неплохо. Затем я вручную расставил три области текста и еще за 3 секунды (!) получил практически идеальный результат.

Обзор ABBYY FineReader Express Edition for Mac 8.0 Обзор ABBYY FineReader Express Edition for Mac 8.0

Отлично распознались странички очень старого, совсем желтого учебника. Впечатлен.

Схематичная страничка с картинкой

Изогнутый учебник французского языка со странным портретом. 13 секунд, полностью автоматически распознанные области текста и картинка.

Обзор ABBYY FineReader Express Edition for Mac 8.0 Обзор ABBYY FineReader Express Edition for Mac 8.0

Распознавание необычных картинок

Окей, FineReader действительно отлично справился с «обычными» изображениями. А что, если ему подсунуть, как в том анекдоте, рельсу? Попробуем. Жечь будем постепенно.

Схема из учебника. Смотрите, как сильно просвечивают буквы.

Обзор ABBYY FineReader Express Edition for Mac 8.0 Обзор ABBYY FineReader Express Edition for Mac 8.0

Моя визитка. Две секунды. Слева — автоматическое распознавание областей (никуда не годится), справа — вручную (идеальное распознавание).

Обзор ABBYY FineReader Express Edition for Mac 8.0 Обзор ABBYY FineReader Express Edition for Mac 8.0

Кассовый чек. Четыре секунды. Нижняя часть была успешна распознана как таблица.

Обзор ABBYY FineReader Express Edition for Mac 8.0 Обзор ABBYY FineReader Express Edition for Mac 8.0

Расписание занятий с пометками от руки, снятая под косым светом. Идеально распозналась за 13 секунд. Более того, распозналась как таблица!

Обзор ABBYY FineReader Express Edition for Mac 8.0 Обзор ABBYY FineReader Express Edition for Mac 8.0

Смятый товарный чек. Сфотографированный при прямом свете, он был идеально распознан за 12 секунд.

Обзор ABBYY FineReader Express Edition for Mac 8.0 Обзор ABBYY FineReader Express Edition for Mac 8.0

Сфотографированный же под косым светом...

Обзор ABBYY FineReader Express Edition for Mac 8.0 Обзор ABBYY FineReader Express Edition for Mac 8.0

Ну и под конец я таки подсунул рельсу, даже две:)

Обзор ABBYY FineReader Express Edition for Mac 8.0 Обзор ABBYY FineReader Express Edition for Mac 8.0

Выводы

Недостатки:
  • Сначала происходит автоматическое распознавание страницы и только потом можно разметить области, и снова запустить распознавание. Хоть оно второй раз и происходит быстрее, но все же это крайне неудобно и заставляет тратить время. OCR же — это потоковая задача, время в ней ценится очень сильно.
  • Нагрузка выше 100% не поднимается. Значит, FineReader не задействует более одного ядра процессора, даже если распознавать несколько файлов. Увы, ваш двухпроцессорный восьмиядерный Mac Pro будет распознавать странички не быстрее моего ноута.
  • Переносы — увы — остаются переносами. Т.е. распознать пятисотстраничный реферат на тему выведения веснушек и рассчитывать потом на полноценный поиск — не получится.

Достоинства:
  • Прямой интерфейс.
  • FineReader.

Спасибо ABBYY за предоставленную лицензию!

PS: Про покупку с академической скидкой. Как мне ответили в ABBYY Украина в конце осени:

"Организации, которые имеют право на приобретение программных продуктов по цене для учебных заведений: государственные высшие, средние и среднеспециальные образовательные учебные заведения; учебные центры, имеющие лицензии на ведение образовательной деятельности, выданные Министерством образования и науки. Льготная цена предоставляется только при наличии официального письма от учебного заведения (шаблон)."

Академическая цена на ABBYY FineReader Express Edition for Mac в Украине тогда была около $38.

Оставить комментарий

Архив записей в блогах:
Этот перепост со словами святителя Иоанна Шанхайского (Максимовича) был опубликован 5 года назад! Слова святого очень актуальны и ныне. "Антихрист предоставит возможность жизни ...
Сегодня, я бы даже сказал сейчас, в 3 часа дня, недалеко от пересечения  Галактионовской/Вилоновской внедорожник (номера запомнить не успел) занесло на трамвайных путях, боком он протаранил трамвайную высоковольтную опору,  после чего ...
Третий день читаю про взрыв в Магнитогорске. Очень сочувствую родным и близким погибших, всем пострадавшим. Радуюсь за малыша. Рошаль сказал, что его вытягивают как паутинку.  ...
Гресь, которого типа подрезали пару десятков постов назад, типа рвёт покровы с чудного зазеркалья нынешней Украины, где просто майдауны, бандеровцы и жидобандеровцы слились в каком-то свальном грехе. Кому интересно, там с десяток его видосов. Я выбрал этот, в котором говорится, за каки ...
Опубликовано в Российкой газете 5 мая 2010 года http://www.rg.ru/2010/05/05/pamjat.html В свое время ...