Выпущен (https://lists.launchpad.net/cuneiform/msg00103.html) новый релиз свободной системы распознавания печатных текстов Cuneiform, построенной на базе открытых компанией Cognitive Technologies исходных текстов. В новой версии появилась поддержка вывода в формате hOCR, который например можно без труда сконвертировать (http://www.exactcode.de/site/open_source/exactimage/hocr2pdf/) в PDF. В прошлом релизе была добавлена поддержка вывода в формате RTF, добавлена поддержка платформы FreeBSD.
OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи. Поддерживается более чем 20 языков. Отдельно стоит отметить отличную поддержку распознавания текста на русском и украинском языках. Результат распознавания может быть сохранен в HTML формате с сохранением особенностей начертания оригинала (выделение жирным, курсивом и т.д.).URL: https://lists.launchpad.net/cuneiform/msg00103.html
Новость: https://www.opennet.ru/opennews/art.shtml?num=19050
Cognitive Technologies спасибо за открытие исходников, новым мейнтерам спасибо за развитие столь нужного пакета.
А оно всё также стабильно падает с segfault при непонятных причинах?
> А оно всё также стабильно падает с segfault при непонятных причинах?
>Нет, надежность повысилась, однако и стабильным назвать продукт пока никак нельзя. Так что можно сказать, что теперь падает не так уж стабильно ^_^
> А оно всё также стабильно падает с segfault при непонятных причинах?Как ни странно данная фича почему-то присуща "распознавалкам текста вообще".Другие распознавалки опробованные в свое время (в виндах) радостно сыпались к такой-то фене как только подсунешь что-то мало-мальски нестандартное.Например, распознавалки *очень* не любят жевать банальные скриншоты почему-то.Ну и так далее - немного креативности и ... распознавалка текста с грохотом выпадат.Странно.
Класс... пошел качать...
>А оно всё также стабильно падает с segfault при непонятных причинах?Нет, работает стабильно.
Потестил, могу отметить, что распознавание с параметрами --dotmatrix --fax идет
хуже - больше ошибок, нежели просто с --dotmatrix или с --fax.
Вобщем в каждом частном случае стоит поиграться с этими параметрами.
распознавание текста в таблицах и графиках, все таблици ломает и переводит не совсем всё правильно. :(