Рекомендації щодо програмного забезпечення для оптичного розпізнавання символів?


15

Я бачив кілька електронних книг / паперів, які, очевидно, відскановані з їх паперових версій, але текст у електронних книгах / паперах можна дивно скопіювати. Я вважаю, що версії, що безпосередньо скануються, повинні бути оброблені деяким програмним забезпеченням для оптичного розпізнавання символів.

Тож я хотів би дізнатися, які рекомендовані програмні засоби оптичного розпізнавання символів? Особливо тих, які або для Ubuntu, або безкоштовно? Якщо такі для Windows набагато досконаліші, будь ласка, повідомте мене також про це.

Мене особливо цікавлять ті OCR, які можуть прийняти відсканований pdf-файл як вхідний і все ще видають як вихід інший pdf-файл, який виглядає так само, як вхідний, але з текстом, який можна скопіювати.

Дякую та з повагою!

Будь ласка, обмежте одне програмне забезпечення на відповідь

Відповіді:


10

Tesseract OCR Встановіть Tesseract OCR

Оригінальний двигун був розроблений ще в кінці 80-х компаніями HP та IBM, але він виявився одним із найкращих програмних засобів для розпізнавання очей, які я використовував. Останнім часом він зазнав безліч оновлень двигуна і став одним із найповніших інструментів OCR на ринку. Аутсорсинг проти більшості інших інструментів OCR (дещо в 90 відсотках збігів тексту) може легко трансформувати стандартний тип документа-обличчя в текст.

Наступний приклад:

tesseract ScannedDocument.png out

Створиться файл, який називається out.txt


Спасибі! Я не бачив, щоб Tesseract підтримував вихідний PDF. Ви знаєте про це?
Тім

@Tim, в основному я не вірю, що Tesseract підтримує багато форматів вводу / виводу. Однак, як згадується у відповіді JanC, gscan2pdf використовує Tesseract для OCR, і як випливає з назви, він підтримує вихід PDF.
Тім Літле

Зауважте, що OCR розшифровується як оптичне розпізнавання символів: en.wikipedia.org/wiki/Optical_character_recognition
Жозе Гомес

8

Ще один проект, який повинен зробити це - gscan2pdf

sudo apt-get install gscan2pdf

Цей проект також може використовувати Tesseract, а також інші інструменти OCR з відкритим кодом.


3

Я не знаю жодного OCR для Ubuntu, але для Windows є той, який має необхідні функції. Це ABBYY FineReader, це сторінка, але вона не безкоштовна


1
Я використовував FineReader саме так, як хоче Тім (для відкриття захищених PDF-файлів)
Extender

3

Безкоштовне рішення існує в репозах , CunieFormYAGF як фронтмен Gnome для нього)


Спасибі! Чи підтримує CunieForm pdf як формат введення та виведення? Я не бачив цього на його сторінці у Вікіпедії та на її офіційній сторінці.
Тім

Можливо, ні, але розділити PDF на серію TIFF все одно є простою задачею :)
Extender

3

Схоже, що проект Decapod робить або експортує в PDF, тому Tesseract повинен якось експортувати необхідну інформацію, щоб знати, де саме знайдено текст.


1

Adobe Acrobat (не зчитувач, не безкоштовна програма) здатний OCR-сканувати сканований документ PDF та додати невидимий текстовий шар у верхній частині зображення, щоб текст міг бути обраний та скопійований. На жаль, мені не зручно перевіряти, де саме ця функція розташована в інтерфейсі Acrobat, але я кілька разів успішно використовую її для тієї ж мети, як ви згадали.

Так, це програмне забезпечення для Windows, а не Linux, але згідно з базою даних Wine HQ, воно працює під Wine .


1

Найкраще програмне забезпечення для OCR зазвичай вбудоване в принтери / сканери / копіювачі. Canon IRC 3880 в моєму кабінеті може виводити великі OCR'd pdfs простіше та швидше, ніж будь-яка програма, яку я знаю. Покладіть книгу на лоток (без зв’язку), виберіть свою поштову адресу, натисніть зелену кнопку.

Більшість PDF-файлів OCR, які ви можете знайти в мережі, приходять на подібні машини. Проблема полягає в тому, що ціна зависока для домашнього користування (близько 12000 євро IRC).



1

OCRFeeder

Це додаток GUI.

введіть тут опис зображення

Він використовує tesseract- ocr або ocrad як двигун OCR.

Можна встановити за допомогою Software Center або за допомогою

sudo apt-get install ocrfeeder

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.