Опубликован релиз системы оптического распознавания текста Tesseract 5.3.4, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0...Подробнее: https://www.opennet.ru/opennews/art.shtml?num=60457
Линуксу не хватает распознавания текстов уровня FineReader
Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader
> в инетеа тут ничего никому загружать не нужно, всё работает _оффлайн_.
Без обучения все равно результат плохой.
Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех задач, которые присущи данной теме.
Ты что-ли занимаешься? Или софт вместо тебя этим занимается?
Недавно занимался распознаванием документа. Потом уснул..
> Недавно занимался распознаванием документа. Потом уснул..Хреновая и неэффективная нейросеть. Заменить на робота.
Еще с конца 90х юзал этот файнридер и альтернатив не видел. Но последние 2 года только тессеракт. Мне пофиг, что оно консольное, зато распознает 100% русских текстов самых разных шрифтов и качеств, которые я ей скармливаю. С помощью тессеракта оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.
> оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.где скачать?
tesseract хорошо распознает. Я его тестировал на сканах ксерокопий в 200взш которые нам присылали из больниц. В чем проблема, что он распознает таблицы.
не распознает. А с фанридером лично у меня всегда были проблемы если результат надо было редактировать.
И еще есть гуй для этой утилиты - gimagereader. Довольно неполохой
Есть где сравнение с FineReader? Я слышал китайцы делали но не смог найти инфы.
Fraktur очень медленно распознаёт по сравнению с FR15.
На порядки медленнее. То есть от 200 до 400 раз медленнее.
Ещё бы готовые модели расшарили, а то гугл зажал. Те модели 10 летней давности не очень хорошие.
Когда последний раз испытывал, это чудо не могло ничего от слова совсем :( Что-нибудь в лучшую сторону изменилось?
Могёт.
Если нет особо сложной вёрстки - даже вполне пристойно могёт.
Но очень-очень не спеша.
Для некоммерческого продукта, всё-таки, даёт весьма пристойный результат.
В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных документах и справках с год назад оно хорошо текст распознавало.
Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров, таблиц, подчёркиваний, жирности, курсивности, структуры абзаца и прочими фичами Файн Ридер 20летней давности - он так и будет не нужен.
После файнридера приводить текст к единому стилю — то ещё удовольствие.
> Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.Самая важная и основная функция инструмента для распознавания картинок! Лучше бы из stdin картинки брали, а курл или что там нужно мы сами уже подключим.
Это все прекрасно. А какие линуксовые программульки могут распозновать рукописный текст?
Не понимаю чего с "этим" возятся, это же позор. Уже давным давно появились более адекватные распознавалки со свободной лицензией и открытым кодом. Например PaddleOCR. А это надо закопать!
Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной кусок питонокода, требующий питоновую инфраструктуру и кучу пакетов для запуска.Ещё два момента:
— В Tesseract тоже завезли нейронки
— PaddleOCR, как и сам фреймворк Paddle — китайский проект, основная масса документации, разработка и багтрекер тоже на китайском. Если языковой барьер не мешает, то пожалуйста.
> Если языковой барьер не мешает, то пожалуйста.Онлайн-переводчики уже запретили ?
Не запретили. Как и выучить китайский. Речь не о принципиальной невозможности, а о дополнительном геморрое.
Ты даже не в теме. Никакие куски питона там не нужны. Я собирал на C++ и библиотеку и программу распознавания. Всё остальное просто нервно курит в сторонке по качеству распознавания. Много документации на английском, для этого надо просто зайти на GitHub. Китайцы молодцы.
Китайцы безусловно молодцы, факт.> Всё остальное просто нервно курит в сторонке по качеству распознавания.
Само-собой, нейронки нещадно нагибают классический подход.
> Я собирал на C++ и библиотеку и программу распознавания.
cpp_infer? Оно работало, но это скорее побочное демо. Основная софтина — это именно питона кусок.
> Много документации на английском
Какая–то есть. Актуальность и полноту по сравнению с китайской берёшься гарантировать? (спойлер: китайская полнее и актуальнее) Поиск по багтрекеру тоже возьмёшся организовать?
Штука не в том. PaddleOCR развивается, тестируется и поддерживается именно как датасатанистский проект с питоном во все поля. Не как сишная либа. Отдельные инициативы по запуску моделей на нативных рантаймах — это именно что демки и proof–of–concept. Без поддержки и гарантий актуализации. Самое ценное там — это компактные модели, но обвязку под них придётся допиливать самостоятельно.
В том и разница: Tesseract компактен, самодостаточен и почти без сторонних зависимостей (всё чтение форматов и обработка картинок вынесены в leptonica). А PaddleOCR — это нейронка, приклеенная к нагромождению third–party либ (один OpenCV чего стоит), и всё насквозь перемотанное синей изолентой. С огромным количеством «если», «может быть» и «— Е..нёт? — Не должно».