The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]



"Выпуск системы распознавания текста GNU Ocrad 0.27"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от opennews (ok), 14-Янв-19, 12:14 
Подготовлен (https://www.mail-archive.com/info-gnu@gnu.org/msg02558....) релиз системы распознавания текста Ocrad (http://www.gnu.org/software/ocrad/ocrad.html) (Optical Character Recognition) 0.27, развиваемой под эгидой проекта GNU. Ocrad может применяться как в форме библиотеки для интеграции функций OCR в другие приложения, так и в форме обособленной утилиты, которая на основе переданного на вход изображения выдаёт текст в UTF-8 или 8-битных кодировках.  

Для оптического распознавания в Ocrad используется метод выделение признаков (feature extraction (http://en.wikipedia.org/wiki/Feature_extraction)). В состав входит анализатор макета страницы, позволяющий корректно разделять столбцы и блоки текста в печатных документах. Распознавание поддерживается только для символов из кодировок "ascii", "iso-8859-9" и "iso-8859-15" (поддержка кириллицы отсутствует). Передаваемые для распознавания изображения должны быть в форматах pbm, pgm  или ppm.

При подготовке нового выпуска работа была сосредоточена на устранении известных проблем и ошибок. Устранены замечания компилятора, выводимые в режиме "-Werror=catch-value" для std::bad_alloc. Обеспечена проверка ошибок при закрытии входного файла. В скрипт configure добавлена поддержка добавления дополнительных опций к  ранее определённой переменной CXXFLAGS с использованием синтаксиса 'CXXFLAGS+=OPTIONS'.


URL: https://www.mail-archive.com/info-gnu@gnu.org/msg02558....
Новость: https://www.opennet.ru/opennews/art.shtml?num=49945

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по времени | RSS]


1. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +7 +/
Сообщение от CHERTSemail (ok), 14-Янв-19, 12:14 
>>Распознавание поддерживается только для символов из кодировок "ascii", "iso-8859-9" и "iso-8859-15" (поддержка кириллицы отсутствует).

Зачем это пoделие ? Почему в нем нельзя использовать тот де TesseractOCR ?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

2. "Выпуск системы распознавания текста GNU Ocrad 0.27"  –6 +/
Сообщение от Аноним (2), 14-Янв-19, 12:26 
Ой, прости, тебя спросить забыли, когда проект начинали.
Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

3. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +5 +/
Сообщение от Тонкая (?), 14-Янв-19, 14:29 
А ответить "слабо"? Или только тыкать способно?
Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

13. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от Анонзо (?), 14-Янв-19, 21:17 
Ой, не ты ли начинал то?
Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

28. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от Аноним (28), 15-Янв-19, 11:59 
когда какой-нибудь кениец запилит кириллицу в ocrad, начнет не хватать таблиц и старославянского, но ничего, индийский гуру-полиглот придёт на помощь
Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

29. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +1 +/
Сообщение от Аноним (29), 15-Янв-19, 11:59 
>Зачем это пoделие ? Почему в нем нельзя использовать тот же ABBYY?

Исправил, не благодари.

Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

4. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +3 +/
Сообщение от evkogan (?), 14-Янв-19, 15:40 
Это поделие было когда teseract не было.
А вот зачем кто-то шевелит труп не знаю.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

21. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от Аноним (-), 15-Янв-19, 03:02 
А как там Cuniform поживает? Есть в нем еще смсл, или Teserakt вобрал в себя все его наработки?
Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

24. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от рпрп (?), 15-Янв-19, 08:16 
не развивается давно. Да тессеракт слабо юзабилен, т к нормальную оболочку к нему напиать забыли.
Ответить | Правка | ^ к родителю #21 | Наверх | Cообщить модератору

5. "Выпуск системы распознавания текста GNU Ocrad 0.27"  –1 +/
Сообщение от Чювак (?), 14-Янв-19, 16:02 
Это конечно интересно, но где кочать готовые .apk или .exe чтоб в 2 клика все работало.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

11. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +1 +/
Сообщение от VINRARUS (ok), 14-Янв-19, 21:08 
На торенте.
Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

6. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от Аноним (6), 14-Янв-19, 16:36 
10 лет назад был худшим из распознавателей. Даже GOCR лучше. Не говоря уж о tesseract, cuneiform и коммерческих системах.

Зачем о нём вспомнили?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

7. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от Аноним (-), 14-Янв-19, 17:49 
Чем щас в Linux распознавать тексты? Есть аналог FineReader'а?
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

9. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от Аноним (6), 14-Янв-19, 18:12 
Был GUI к cuneiform. Без таблиц. Tesseract допилили, вроде, тоже без таблиц.

Несколько оффтопичных программ хорошо работали под Вайном, включая FineReader и ReadIris.

Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

10. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от KonstantinB (ok), 14-Янв-19, 20:02 
Есть Finereader Engine для linux, но цены там какие-то совсем неприличные.

Современный tesseract неплох, но под кириллицу требует тренировки (можно попробовать погуглить готовые модели).

Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

19. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +1 +/
Сообщение от Аноним (19), 14-Янв-19, 23:32 
Т.е. двигло за бабло они осилили, а морду нарисовать - нема? Уже вижу как домашний пользователь ковыряется с этим движком...
Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

14. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +1 +/
Сообщение от Молчуныemail (?), 14-Янв-19, 21:28 
YAGF — программа, предоставляющая графический интерфейс пользователя для систем оптического распознавания символов CuneiForm и Tesseract.
Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

20. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от Аноним (20), 15-Янв-19, 00:49 
Есть Wine.
Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

8. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от Аноним (8), 14-Янв-19, 17:59 
tesseract и гуи морда к нему
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

15. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +4 +/
Сообщение от Enter Your Name (?), 14-Янв-19, 23:08 
"В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0) осуществляется с помощью дополнительных модулей."

А чего в виде модулей, а не в базовой комплектации? И как понять развивается ли этот модуль или давно забили на него? Насколько хорошо распознается русские тексты и шрифты в Tesseract по сравнению с Finereader?

Ответить | Правка | ^ к родителю #8 | Наверх | Cообщить модератору

25. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от рпрп (?), 15-Янв-19, 08:19 
распознает более менее, но на выходе plain text
Ответить | Правка | ^ к родителю #15 | Наверх | Cообщить модератору

12. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +1 +/
Сообщение от Аноним (12), 14-Янв-19, 21:11 
> Передаваемые для распознавания изображения должны быть в форматах pbm, pgm или ppm.

Это шутка такая ?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

16. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +3 +/
Сообщение от Alexey (??), 14-Янв-19, 23:17 
Ты чо, самые распространенные графформаты ... среди рептилоидов
Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

17. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +10 +/
Сообщение от Ponchik (?), 14-Янв-19, 23:19 
Википедия показывает 5 основных СПО систем OCR:

1. CuneiForm

2. GOCR

3. Ocrad

4. OCRopus

5. Tesseract

Причем если 1 и 5 вроде как живые и шевелятся, то про 2 и 4 вообще непонятно, а 3 (тот что из новости) вроде ожившего мертвеца и распознает фигово.

Если кто-то может вкратце рассказать по каждой из 5 - был бы признателен (и не я один).


Так же есть 2 морды:

1. OCRFeeder (на GTK), последняя версия 2014 год

2. YAGF (на Qt), последняя версия 2015 год

Как видим, на GUI забили большой и толстый. Хороший GUI никому не нужен. Ну что могу сказать, с такой философией линукс на десктопе еще не скоро освоится. Не будет пользователь крaснoглaзить в консоли, хотя лично мне и консоль сойдет, лишь бы оно нормально распознавало. Но мало кто станет таким заниматься, это факт. Не жалуюсь, просто высказался по теме.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

18. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +4 +/
Сообщение от Виталий (??), 14-Янв-19, 23:29 
> CuneiForm
> Последняя версия 1.1.0 (19 апреля 2011)

Настораживает. Из живых и активных я так понял только Tesseract от гугла. Небось уже зондов напихали или напихают, или сделают зависимым от онлайна/нейронки. :(

Ответить | Правка | ^ к родителю #17 | Наверх | Cообщить модератору

22. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от AndrewR (?), 15-Янв-19, 06:40 
https://github.com/manisandro/gImageReader

"gImageReader is a simple Gtk/Qt front-end to tesseract-ocr." (gtk3/qt5)

Ответить | Правка | ^ к родителю #17 | Наверх | Cообщить модератору

30. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от Аноним (6), 15-Янв-19, 15:04 
GOCR давно пригоден для распознавания английской капчи, но расширять его нереально, проще переписать с нуля. Вот на него и забили.

OCRopus -- исследовательский проект, который пилится каким-то профессором в свободное время. Для хорошего распознавания рекомендуется серый текст на серой бумаге.

Ответить | Правка | ^ к родителю #17 | Наверх | Cообщить модератору

34. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от Gannetemail (ok), 16-Янв-19, 21:30 
>1. CuneiForm

Да, по степени говняности качества ПО, оно действительно на первом месте.

Ответить | Правка | ^ к родителю #17 | Наверх | Cообщить модератору

23. "Выпуск системы распознавания текста GNU Ocrad 0.27"  –8 +/
Сообщение от Адекват (ok), 15-Янв-19, 07:18 
Мне кажется это как раз тот случай, который показывает почему софт бывает платным. Почему платный софт лучше бесплатного. Почему софт ДОЛЖЕН быть платным.
В целом, почему деньги "не зло" - деньги это эквивалент труда (в идеальной сферической вселенной), но и в нашем мире, чтобы сделать что-то действительно качественное и хорошее нужно затратить какое-то количество человеко-часов, которые должны быть ОПЛАЧЕНЫ, иначе все будет очень печально. Ну а хорошие платные вещи (в частности софт) будут стимулировать покупателей зарабатывать деньги - развиваться, становиться полезными обществу, расти как специалисты, становиться высокооплачиваемыми профи.
Если же рассмотреть противоположную ситуацию, доведенную  до абсурда - когда все  БЕСПЛАТНО, человек не будет развиваться, у него не будет просто причин, не будет мотивации, не будет желания расти как личность, и как специалист - все превратятся в апатичное, безвольное, безмозглое бухающее быдло. Все будут пить пиво, смотреть сериальчики, играть в компьютерные игры и тусить.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

26. "Выпуск системы распознавания текста GNU Ocrad 0.27"  –1 +/
Сообщение от рпрп (?), 15-Янв-19, 08:25 
Если все будет бесплатно, то работать придется всем в 10 раз меньше, но пиво и сериальчики будут только твоего домашнего происхождения. Куда девать свободное время каждый решает по своему, кто-то будет делать софт, кто-то ничего не делать.
С бесплатным софтом есть хитрый нае**. Бесплатный софт общего назначения, его готов создавать каждый второй, но для решения спец задач сразу ценник космический (либо его нет под линь, что чаще сего бывает).
Ответить | Правка | ^ к родителю #23 | Наверх | Cообщить модератору

35. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +1 +/
Сообщение от Gannetemail (ok), 16-Янв-19, 21:34 
А с платным софтом нет нет хитрого нае**? Докажи. На примере Шиндошs например. Нет никакого нае**, точно? Ты действительно в это веришь?
Ответить | Правка | ^ к родителю #26 | Наверх | Cообщить модератору

27. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от mma (?), 15-Янв-19, 11:45 
>Мне кажется это как раз тот случай, который показывает почему софт бывает платным.

Это тот случай который показывает что бывает софт для эндюзера, а бы бывает для программистов которые интегрирую различный функционал в различные системы. Желание первых получить нахаляву замену платному софту понятно, но нежелание других делать это нахаляву для них еще понятнее.

Ответить | Правка | ^ к родителю #23 | Наверх | Cообщить модератору

33. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от иисус (?), 16-Янв-19, 11:42 
Господи, вторая половина это прям про меня ;Ж))
Ответить | Правка | ^ к родителю #23 | Наверх | Cообщить модератору

36. "Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от Тот_Самый_Анонимус (?), 30-Мрт-19, 15:21 
>Адекват
>Почему платный софт лучше бесплатного.

Блендер смотрит на тебя, как на ГМО. К тому же, ник неправильно подобран.

Ответить | Правка | ^ к родителю #23 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Спонсоры:
Слёрм
Inferno Solutions
Hosting by Ihor
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2019 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру