Релиз системы распознавания текста Tesseract 5.0

01.12.2021 12:48 (MSK)

Опубликован релиз системы оптического распознавания текста Tesseract 5.0, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, NEON или SSE4.1.

Основные улучшения в Tesseract 5.0:

Значительное изменение номера версии связано с внесением в API изменений, нарушающих совместимость. В частности, публично доступный API libtesseract больше не привязан к проприетарным типам данных GenericVector и STRING, вместо которых в коде задействованы std::string и std::vector.
Проведена реорганизация дерева исходных текстов. Публичные заголовочные файлы перемещены в каталог include/tesseract.
Переработано управление памятью, все вызовы malloc и free заменены на код C++. Проведена общая модернизация кода.
Добавлены оптимизации для архитектур ARM и ARM64, для ускорения вычислений задействованы инструкции ARM NEON. Проведена общая для всех архитектур оптимизация производительности.
Реализованы новые режимы тренировки моделей и распознавания текста, основанные на использовании вычислений с плавающей запятой. Новые режимы отличаются более высокой производительностью и снижением потребления памяти. В движке LSTM быстрый режим float32 включён по умолчанию.
Осуществлён переход на использование нормализации Unicode с использованием формы NFC (Normalization Form Canonical).
Добавлена опция для настройки детализации логов (--loglevel).
Переработана система сборки на основе Autotools, которая переведена на сборку в нерекурсивном режиме.
Ветка "master" в Git переименована в "main".
Добавлена поддержка новых выпусков macOS и систем Apple на базе чипа M1.

исправить +26 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/56259-tesseract

Ключевые слова: tesseract, ocr

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (72)

1.2, А где же каменты (?), 13:01, 01/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	+5 +/–
Название напоминает о фильме куб 2.

2.26, _hide_ (ok), 15:14, 01/12/2021 [^] [^^] [^^^] [ответить]	–3 +/–
Результаты распознавания напоминают "Приключения Алисы в Стране чудес"

3.28, _hide_ (ok), 15:31, 01/12/2021 [^] [^^] [^^^] [ответить]	+1 +/–
Всё зависит от того, какие использовать словари. Если использовать те, что в новости, то получается не очень. С https://github.com/tesseract-ocr/tessdata получше, но тоже есть косяки. Поманьячив с фильтрами, получаем вполне корректный текст. Вывод: нужно.

2.33, Аноним (33), 16:00, 01/12/2021 [^] [^^] [^^^] [ответить]	–2 +/–
А мне о игре

2.52, Аноним (52), 06:00, 02/12/2021 [^] [^^] [^^^] [ответить]	–1 +/–
И ещё "массаракш" из Обитаемого Острова

1.3, Аноним (3), 13:02, 01/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	+17 +/–
>Ветка "master" в Git переименована в "main". Очень важное изменение!

2.4, Аноним (4), 13:06, 01/12/2021 [^] [^^] [^^^] [ответить]	+3 +/–
Всё как у дистрибутивов. Теперь по фен-шую.

3.29, Аноним (29), 15:32, 01/12/2021 [^] [^^] [^^^] [ответить]	+1 +/–
Всё как у других IT-проектов.

3.41, Тот_Самый_Анонимус (?), 18:57, 01/12/2021 [^] [^^] [^^^] [ответить]	+2 +/–
>Всё как патрия приказала. Очевидный фикс, не стоит благодарности.

4.51, Аноним (51), 03:28, 02/12/2021 [^] [^^] [^^^] [ответить]	+2 +/–
Это свобода, как говорят у них там

2.54, Аноним (54), 09:33, 02/12/2021 [^] [^^] [^^^] [ответить]	–1 +/–
это единственное, что привело к такому увеличению номера версии. блм и прочие чернильники только так узнают безопасность продукта.

2.80, Анонимян (?), 12:09, 06/12/2021 [^] [^^] [^^^] [ответить]	+/–
Это самое важное! Лишь бы не оскорблять нигеров. Хотя казалось бы , неужели они читают сорцы?

1.5, anonymous (??), 13:10, 01/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
Так 5.0 или 4.1?! Вы уж там как-нибудь определитесь.

2.8, anonymous (??), 13:24, 01/12/2021 [^] [^^] [^^^] [ответить]	+/–
По ходу зарелизился 4.1, а теперь начинается развитие 5.

3.10, s.d.s. (?), 13:37, 01/12/2021 [^] [^^] [^^^] [ответить]	+/–
https://github.com/tesseract-ocr/tesseract/releases/tag/5.0.0

2.13, nymous (?), 13:55, 01/12/2021 [^] [^^] [^^^] [ответить]	+2 +/–
4.1.0 Release @zdenop zdenop released this 07 Jul 2019 Похоже, рыбу прошлой новости толком не переписали.

3.14, nymous (?), 13:56, 01/12/2021 [^] [^^] [^^^] [ответить]	+/–
Так и есть https://www.opennet.ru/opennews/art.shtml?num=51081

2.30, Аноним (29), 15:33, 01/12/2021 [^] [^^] [^^^] [ответить]	+9 +/–
5 + 0 == 4 + 1 чё не нравится?

1.6, Аноним (6), 13:11, 01/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	+4 +/–
Проприетарные типы данных? А проприетарной алгебры ещё не появилось?

2.15, Аноним (15), 14:03, 01/12/2021 [^] [^^] [^^^] [ответить]	+/–
Тоже удивился.

2.17, Аноним (17), 14:08, 01/12/2021 [^] [^^] [^^^] [ответить]	+2 +/–
Да чушь какая-то в новости. У них в коде было условно class MyVector {}; class MyString {}; Перешли на STL контейнеры. Всё. По мнению автора новости любой класс, которого нет в std:: уже проприетарный?

3.46, Аноним (46), 22:10, 01/12/2021 [^] [^^] [^^^] [ответить]	+1 +/–
Это просто перевод кривой. Propietary переводится как собственный, что в контексте типов данных — вполне нормальный эпитет.

2.53, Аноним (52), 06:05, 02/12/2021 [^] [^^] [^^^] [ответить]	+/–
Не знаю на счёт проприетарной алгебры, но незаконные числа уже есть: https://en.wikipedia.org/wiki/Illegal_number

1.7, Аноним (7), 13:23, 01/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Довольно слабо распознаёт, я не знаю. Но лучше всё равно ничего нет. Приходится возиться с наложением фильтров, контрастностью, монохромными форматами и всем остальным. Как у гугла на телефонах работает распознование? Другие модели?

2.9, Кир (?), 13:31, 01/12/2021 [^] [^^] [^^^] [ответить]	+1 +/–
Странно, по моему опыту -- распознает шикарно: без ошибок распознает даже не слишком качественные фотки с телефона. Можно пример плохо распознанного текста (ссылочку на картинку)?

3.11, Аноним (7), 13:38, 01/12/2021 [^] [^^] [^^^] [ответить]	+1 +/–
Любой текст. Мне иероглифы распознавать надо. -_- В итоге приходится вручную посимвольно рисовать во всяких онлайн сервисах, иначе ничего не понятно. Это очень долго.

4.12, Аноним (17), 13:47, 01/12/2021 [^] [^^] [^^^] [ответить]	+/–
Как показывает практика, 90% успеха - в препроцессинге картиночки. Большая часть маленьких приложух и/или статьи про то, как готовить тессеракт, заточены на распознание чеков и сканов, т.е. черного текста на белом и сфотканного под прямым углом. Ну а если задача отличается, то какой-нибудь OpenCV и погнали экспериментировать))

4.18, Аноним (18), 14:09, 01/12/2021 [^] [^^] [^^^] [ответить]	+4 +/–
Лучше FineReaderа ничего не знаю.

3.19, ананоша (?), 14:11, 01/12/2021 [^] [^^] [^^^] [ответить]	+/–
По моему опыту в 4.х есть проблемки, потратил несколько недель чтобы добиться корректного распознавания, но все равно есть ошибки на ровном месте, иногда вместо одного символа определяет два других, смешновато получается. Очень ждал 5ый релиз, надеюсь ситуация улучшилась, осталось дождаться порта на жс :)

2.38, lockywolf (ok), 17:35, 01/12/2021 [^] [^^] [^^^] [ответить]	+/–
Он чувствителен к искажениям картинки. Так то распознаёт хорошо, но именно распознаёт.

2.55, Аноним (55), 10:38, 02/12/2021 [^] [^^] [^^^] [ответить]

+/–

> лучше всё равно ничего нет

А сравнивали?

apt install cuneiform -y

3.62, Аноним (7), 12:59, 02/12/2021 [^] [^^] [^^^] [ответить]	+1 +/–
Сравнивали, сравнивали. Китайского нет в списке поддерживаемых -- толку с него как с козла молока. Последний раз шевелилось 10+ лет назад. Спасибо, сами используйте.

2.66, Jh (?), 22:52, 02/12/2021 [^] [^^] [^^^] [ответить]	+/–
ну не знаю, для бесплатного вполне прилично. Если распечатать текст и отсканировать, то практически 100%.

3.68, Аноним (7), 23:02, 02/12/2021 [^] [^^] [^^^] [ответить]	+/–
Нестандартные красивые шрифты вообще не распознаёт.

1.16, Аноним (18), 14:08, 01/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	+/–
>базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM >классический, распознающий текст на уровне шаблонов отдельных символов Сравниили мягкое с тёплым. LSTM - это модель для последовательностей, а не картинок. И кстати уже давно не считается SOTA. Для картинок - CNN.

2.27, Nuzhny (?), 15:26, 01/12/2021 [^] [^^] [^^^] [ответить]	+/–
Так текст - это и есть последовательность. Вполне можно распознать символы и для каждого выдать топ-3 самых вероятных, а дальше скормить эту последовательность символов в тот же LSTM для исправления ошибок распознавания. Ну и про SOTA однозначно сказать нельзя так, в картинки уже пришли трансформеры и вполне успешно.

3.44, Аноним (18), 21:14, 01/12/2021 [^] [^^] [^^^] [ответить]	+/–
>Так текст - это и есть последовательность. Вполне можно распознать символы и для каждого выдать топ-3 самых вероятных, а дальше скормить эту последовательность символов в тот же LSTM Да это понятно. Просто сравнили "тёплое" (распознавание векторов символов из пикселов) с "мягким" (постобработка для получения текста, что графовой моделью, что нейронкой).

2.34, Андрей (??), 16:05, 01/12/2021 [^] [^^] [^^^] [ответить]	+3 +/–
При посимвольном распознавании будет много опечаток-ошибок, поэтому распознают словами-последовательностями, для чего собсна и используют ЛСТМ.

1.20, Аноним (-), 14:16, 01/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Djvu распознавать уже осилили?

2.21, Tesseract50 (?), 14:23, 01/12/2021 [^] [^^] [^^^] [ответить]	+/–
За километр распознаю, и со словами "мусорное ненужно из прошлого века" удаляю.

3.61, Аноним (-), 12:49, 02/12/2021 [^] [^^] [^^^] [ответить]	+/–
> Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard Воистину мусорное ненужно из прошлого века, не удаляю только потому что побрезговал поставить

2.24, Аноним (24), 14:27, 01/12/2021 [^] [^^] [^^^] [ответить]	+1 +/–
Предварительно генерируй изображения страниц через ddjvu, распознавай. То же и распознавания любых PDF и касается - Ghostscript в помощь.

2.63, Аноним (63), 16:13, 02/12/2021 [^] [^^] [^^^] [ответить]	+/–
Давно уже видел скрипт на perl, который разбирает djvu на картинки (ddjvu), распознает их tesseract, и запихивает результат обратно в djvu текстовым слоем

3.65, Аноним (-), 17:26, 02/12/2021 [^] [^^] [^^^] [ответить]	–1 +/–
Нужно в epub из всяких djvu и pdf и желательно без костылей, а напрямую. Finereader, к примеру, так умеет.

4.69, Аноним (63), 23:44, 02/12/2021 [^] [^^] [^^^] [ответить]	+/–
epub теряет look&feel оригинального документа. Он может быть довеском к djvu для тех, кто читает с телефона, но реально djvu не заменит для старых сканированных доков.

5.73, Аноним (73), 11:31, 03/12/2021 [^] [^^] [^^^] [ответить]	+/–
Ну тут я бы не был столь категоричен. Потеря look&feel - это скорее проблема fb2, a не epub

1.22, Аноним (22), 14:26, 01/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
больше всего не хватает сегментирования текста как в файнридере

2.39, Аноним (39), 18:15, 01/12/2021 [^] [^^] [^^^] [ответить]	+/–
Оно там есть как минимум с версии 3, но таблицы действительно до сих пор не распознает.

1.25, Аноним (24), 14:29, 01/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Какие-то бенчмарки 4.1 vs 5.0 уже подвезли?

1.31, Иваня (?), 15:38, 01/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Чем оно лучше PaddleOCR? 🤔

2.37, Аноним (24), 16:39, 01/12/2021 [^] [^^] [^^^] [ответить]	+/–
А PaddleOCR чем лучше? Распознаёт точнее, работает быстрее?

3.43, Неанон (?), 19:43, 01/12/2021 [^] [^^] [^^^] [ответить]	–1 +/–
да

4.49, Аноним (-), 00:55, 02/12/2021 [^] [^^] [^^^] [ответить]	+2 +/–
А где твои тесты, сравнения, анализ?

1.32, макпыф (ok), 15:39, 01/12/2021 [ответить] [﹢﹢﹢] [ · · · ]

+/–

> Релиз системы распознавания текста Tesseract 5.0
> Опубликован релиз системы оптического распознавания текста Tesseract 4.1

т.к. 4.1 вышел в 2019 думаю заголовок правильный

1.36, Аноним12345 (?), 16:39, 01/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Насколько я помню, лет 5 назад с тренировкой моделей и распознаванием текста было не очень

1.40, Аноним (-), 18:38, 01/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	+5 +/–
А нормальное GUI-приложение когда появится, а не васянские поделки?

2.45, Аноним (39), 21:41, 01/12/2021 [^] [^^] [^^^] [ответить]	+/–
А какие критерии нормальности? Имхо, 95% случаев gImageReader более чем достаточно.

3.48, Аноним (-), 00:54, 02/12/2021 [^] [^^] [^^^] [ответить]	+5 +/–
Ты FineReader видел? Можно хотя-бы 10% его функциональности и нормальный человеческий интерфейс?

4.50, Аноним (50), 01:55, 02/12/2021 [^] [^^] [^^^] [ответить]	+/–
А что входит в эти 10% процентов?

4.59, Аноним (59), 12:10, 02/12/2021 [^] [^^] [^^^] [ответить]	+1 +/–
Ты цену на его серверную (да-да, есть, linoops compatible) версию без ограничений использования видел? А то - да, можно - и интерфейс человеческий, rest api.

4.67, Jh (?), 22:56, 02/12/2021 [^] [^^] [^^^] [ответить]	+1 +/–
Сколько стоит лицензия на файнридер?

2.75, Аноним (24), 13:21, 03/12/2021 [^] [^^] [^^^] [ответить]	+/–
https://github.com/manisandro/gImageReader выглядит довольно неплохо.

1.42, anonymous (??), 19:21, 01/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
> поддерживающей распознавание символов UTF-8 Это как? Коды utf-8 считываются с QR-кода? Как можно по картинке восстановить кодировку? Я понимаю по картинке получить нормализованный юникод. Но в юникоде ведь code point. А конкретная кодировка может быть любой.

2.77, Аноним (77), 17:41, 03/12/2021 [^] [^^] [^^^] [ответить]	+/–
"распознавание всех символов входящих в кодировку УТФ-8"

1.47, Аноним (47), 00:21, 02/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
А "готовые натренированные модели" не обновлялись? Для нейросетей главное даже не движек, а чтоб сами сети качественными были.

2.79, Аноним (79), 12:49, 05/12/2021 [^] [^^] [^^^] [ответить]	+/–
Забавно! Было слово "движок", потом человек за недостаточностью грамотности подумал (или увидел где-то), что там "ё". Будучи нелюбителем "ё" (или лениво её печатать), стал писать "движек". И вот, теперь это похоже на какую-то чешскую фамилию :)

1.56, Аноним (55), 10:40, 02/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	+/–
> YAGF Пока в настройках не отключил "улучшение качества изображения", утилита завершалась аварийно с любыми движками (так что сабж не при чем).

1.57, InuYasha (??), 11:26, 02/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
Быдстограм нормально парсит. Гламурные кисы под колпаком.

1.71, Аноним (71), 09:55, 03/12/2021 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Ну теперь то появится бесплатный софт распозначание текста?

2.74, Аноним (24), 13:16, 03/12/2021 [^] [^^] [^^^] [ответить]	+/–
FineReader и так бесплатен в торрентах. Лучше него всё равно ничего нет.

3.82, Vasyan (??), 22:31, 07/12/2021 [^] [^^] [^^^] [ответить]	+/–
Есь и много, САБЖ, например.

2.81, Vasyan (??), 22:30, 07/12/2021 [^] [^^] [^^^] [ответить]	+/–
Типа раньше небыло.

игнорирование участников | лог модерирования

Добавить комментарий

Текст: