15

Я бачив кілька електронних книг / паперів, які, очевидно, відскановані з їх паперових версій, але текст у електронних книгах / паперах можна дивно скопіювати. Я вважаю, що версії, що безпосередньо скануються, повинні бути оброблені деяким програмним забезпеченням для оптичного розпізнавання символів.

Тож я хотів би дізнатися, які рекомендовані програмні засоби оптичного розпізнавання символів? Особливо тих, які або для Ubuntu, або безкоштовно? Якщо такі для Windows набагато досконаліші, будь ласка, повідомте мене також про це.

Мене особливо цікавлять ті OCR, які можуть прийняти відсканований pdf-файл як вхідний і все ще видають як вихід інший pdf-файл, який виглядає так само, як вхідний, але з текстом, який можна скопіювати.

Дякую та з повагою!

Будь ласка, обмежте одне програмне забезпечення на відповідь

software-recommendation

— Тім
джерело

10

Tesseract OCR

Оригінальний двигун був розроблений ще в кінці 80-х компаніями HP та IBM, але він виявився одним із найкращих програмних засобів для розпізнавання очей, які я використовував. Останнім часом він зазнав безліч оновлень двигуна і став одним із найповніших інструментів OCR на ринку. Аутсорсинг проти більшості інших інструментів OCR (дещо в 90 відсотках збігів тексту) може легко трансформувати стандартний тип документа-обличчя в текст.

Наступний приклад:

tesseract ScannedDocument.png out

Створиться файл, який називається out.txt

— Денніс
джерело

Спасибі! Я не бачив, щоб Tesseract підтримував вихідний PDF. Ви знаєте про це?

— Тім

@Tim, в основному я не вірю, що Tesseract підтримує багато форматів вводу / виводу. Однак, як згадується у відповіді JanC, gscan2pdf використовує Tesseract для OCR, і як випливає з назви, він підтримує вихід PDF.

— Тім Літле

Зауважте, що OCR розшифровується як оптичне розпізнавання символів: en.wikipedia.org/wiki/Optical_character_recognition

— Жозе Гомес

8

Ще один проект, який повинен зробити це - gscan2pdf

sudo apt-get install gscan2pdf

Цей проект також може використовувати Tesseract, а також інші інструменти OCR з відкритим кодом.

— Марк Кірбі
джерело

3

Я не знаю жодного OCR для Ubuntu, але для Windows є той, який має необхідні функції. Це ABBYY FineReader, це сторінка, але вона не безкоштовна

— vicmp3
джерело

1

Я використовував FineReader саме так, як хоче Тім (для відкриття захищених PDF-файлів)

— Extender

3

Безкоштовне рішення існує в репозах , CunieForm (і YAGF як фронтмен Gnome для нього)

— Розширювач
джерело

Спасибі! Чи підтримує CunieForm pdf як формат введення та виведення? Я не бачив цього на його сторінці у Вікіпедії та на її офіційній сторінці.

— Тім

Можливо, ні, але розділити PDF на серію TIFF все одно є простою задачею :)

— Extender

3

Схоже, що проект Decapod робить або експортує в PDF, тому Tesseract повинен якось експортувати необхідну інформацію, щоб знати, де саме знайдено текст.

— JanC
джерело

1

Adobe Acrobat (не зчитувач, не безкоштовна програма) здатний OCR-сканувати сканований документ PDF та додати невидимий текстовий шар у верхній частині зображення, щоб текст міг бути обраний та скопійований. На жаль, мені не зручно перевіряти, де саме ця функція розташована в інтерфейсі Acrobat, але я кілька разів успішно використовую її для тієї ж мети, як ви згадали.

Так, це програмне забезпечення для Windows, а не Linux, але згідно з базою даних Wine HQ, воно працює під Wine .

— Серж Брославський
джерело

1

Найкраще програмне забезпечення для OCR зазвичай вбудоване в принтери / сканери / копіювачі. Canon IRC 3880 в моєму кабінеті може виводити великі OCR'd pdfs простіше та швидше, ніж будь-яка програма, яку я знаю. Покладіть книгу на лоток (без зв’язку), виберіть свою поштову адресу, натисніть зелену кнопку.

Більшість PDF-файлів OCR, які ви можете знайти в мережі, приходять на подібні машини. Проблема полягає в тому, що ціна зависока для домашнього користування (близько 12000 євро IRC).

— Хав'єр Рівера
джерело

1

Моя улюблена безкоштовна онлайн-програма OCR пропонує компанія Ricoh Innovations. Це бета-програма, але я вважаю, що вона працює досить добре. Перевірте це за адресою: http://beta.rii.ricoh.com/betalabs/content/document-conversion

— Наталі
джерело

1

OCRFeeder

Це додаток GUI.

введіть тут опис зображення

Він використовує tesseract- ocr або ocrad як двигун OCR.

Можна встановити за допомогою Software Center або за допомогою

sudo apt-get install ocrfeeder

— користувач224082
джерело

0

FineReader також має Інтернет-версію. Він стверджує, що може обробляти PDF-файли як формат введення --- http://finereader.abbyyonline.com/en/Help/Faq/

— текстильні
джерело

Рекомендації щодо програмного забезпечення для оптичного розпізнавання символів?

Tesseract OCR