The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Релиз системы распознавания текста Tesseract 5.1

02.03.2022 07:46

Опубликован релиз системы оптического распознавания текста Tesseract 5.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, NEON или SSE4.1.

Основные улучшения в Tesseract 5.1:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • Улучшена система сборки.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.


  1. Главная ссылка к новости (https://github.com/tesseract-o...)
  2. OpenNews: Выпуск системы распознавания текста GNU Ocrad 0.28
  3. OpenNews: Релиз системы распознавания текста Tesseract 5.0
  4. OpenNews: Новая версия оболочки для распознавания текста YAGF 0.9.4
  5. OpenNews: Новая система оптического распознавания текста EasyOCR
  6. OpenNews: Релиз системы распознавания текстов Cuneiform 1.1.0
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/56788-tesseract
Ключевые слова: tesseract, ocr
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (15) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.2, Аноним (2), 11:42, 02/03/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +6 +/
    Использую.
    Хороший проект.
    Спасибо разработчикам.
     
     
  • 2.8, Аноним (8), 22:34, 02/03/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Даёшь распознавание ятей(Ѣ)!! (для дореволюционного текста нужно, не руками же это всё править)
     
     
  • 3.9, Гнъ Анонимъ (?), 00:54, 03/03/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Поддерживаю! Сія мѣра очень кстати!
     
     
  • 4.10, barmaley (??), 09:35, 03/03/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Право голубчикъ, чтож вы изволите такого писать?
     
     
  • 5.11, Гнъ Анонимъ (?), 12:49, 03/03/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > Право голубчикъ, чтож вы изволите такого писать?

    Я самъ ничего, но много интересныхъ книгъ написано до насъ нашими великими предками

     

  • 1.3, Аноним (3), 12:55, 02/03/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –5 +/
    Пока не запилят восстановление стиля и структуры, с детекцией шрифтов, картинок, таблиц и т.д., с сохранением всей обнаруженной инфы, с возможностью для пользователя вмешиваться в процесс, как сделано в FineReader, так и будет бесполезной поделкой.
     
     
  • 2.6, Аноним (6), 16:40, 02/03/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    https://github.com/tesseract-ocr/tesseract/blob/main/CONTRIBUTING.md

    А вообще и в нынешнем виде он очень полезен: тот же OcrMyPDF, сделанный на его основе - отличная штука для случаев когда надо добавить текстовый слой к отсканированным печатным материалам - например, для удобного поиска по ним.

     

  • 1.4, Аноним (3), 12:56, 02/03/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >на базе рекуррентной нейронной сети LSTM

    Продвинутые ребята уже 7 лет как используют трансформеры.

     
     
  • 2.5, iLex (ok), 16:27, 02/03/2022 [^] [^^] [^^^] [ответить]  
  • +/
    У трансформеров есть неприятный недостаток - они требуют ОЧЕНЬ большого объёма обучающей выборки, чтобы механизм Multi-head attention нормально работал. Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмы. Так что трансформеры - это игрушка крупных корпораций.
    А на малых выборках LSTM'ки кроют трансформеры по полной.
     
     
  • 3.7, Аноним (3), 20:27, 02/03/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмы

    Трансформеры тренируют на неразмеченных данных. Им нужна модель, понимающая структуру текста, к которой можно приделать распознающую модель, чтобы предсказывать распределение вероятностей для символа при заданной картинке. Для этого разметка не нужна. Нужна модель трансформер на чистом тексте (входы и выходы - 1-hot) + модель-распознавалка, выдающая распределение вероятностей для символа. Веса трансформера для начала можно и нужно заморозить.

     
  • 3.12, Анон111 (?), 14:05, 03/03/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Google вроде достаточно крупная корпорация
     
     
  • 4.14, psv (??), 23:05, 04/03/2022 [^] [^^] [^^^] [ответить]  
  • +/
    расскажите это openrefine

     

  • 1.13, ааноним (?), 22:04, 03/03/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Для винды есть сборка?
     
     
  • 2.15, Jh (?), 04:42, 05/03/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Есть. Есть даже GUI - VietOCR. В принципе можно пользоваться
     

  • 1.16, DmA (??), 11:57, 07/03/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А почему только 4 языка перечислены, а не 100?
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру