Чи є хороші відкриті джерела (ну, безкоштовні) рукописних програм OCR?


16

Заголовок запитує все це. У мене перед завданням введення даних, яким я не надто захоплений: 50-100 сторінок рукописного виходу / входу в журнали.

Формат журналів може допомогти. Сторінки розділені на чітко окреслені рядки та стовпці (13r x 6c з додатковим набраним рядком заголовка). Далі допомагає мені те, що три колонки пов'язані з датою / часом (дата, час виходу, час у). Крім того, дані у двох стовпцях (ресурс та ім’я) більш-менш перераховуються, так що, наприклад, ім'я "Сміт" може з'являтися раз і знову у стовпці з іменами, щоразу з однаковим почерком. Останній стовпчик "Примітки" - це вільна форма, але якби я міг автоматизувати попередні 6 стовпців, я не заперечував би вводити Нотатки вручну.

Будь-які пропозиції? (Окрім "почніть вводити текст".)

PS Якщо є кращий веб-сайт SE, щоб запитати це, дайте мені знати, я запитую його.


1
Чи можете ви опублікувати зразок сканування журналу?
Мартін Томпсон

1
Не турбуйтеся з Captricity - вони запитують вашу електронну пошту та надсилають ua "email email" з посиланням.

І ось що відбувається, коли ви плутаєте терміни «відкритий код» і «безкоштовно» ... що у вас є компанія, яка намагається отримати перевагу на ринку, даючи думку, що «відкритий код» дорівнює «поганому» ».
Джоан

Відповіді:


6

тессеракт є probbaly кращим і найбільш поширеною бібліотеки OCR.

Це було випробувано рукописним текстом і не надто погано - хоча рукописний текст читати непросто. http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf


Tesseract, безумовно, хороший варіант, якщо ви дивитесь на вільний / відкритий код. Це не на 100%, але він отримує досить точні результати більшу частину часу.
Капітан Кенпачі

4

Якщо у вас менше 10 сторінок, Captricity може зробити це безкоштовно.

Немає хороших рішень з відкритим кодом для того, що ви шукаєте. Платні рішення коштують багато за ліцензію. На цьому ґрунтується наш досвід побудови рукописного сервісу OCR на Captricity . Ми використовуємо tesseract у виробництві, але лише як голосування, яке поєднується з інтелектом людини (краудсорсинг), щоб забезпечити високий рівень якості.

Сподіваюся, що це допомагає!

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.