Будь-які інструменти для автоматизації OCR відсканованих файлів PDF таким чином, як функція OCR Acrobat? [зачинено]


10

Відкритий код бажаний, але не є необхідним.

У мене є Adobe Acrobat 8, і мені дуже подобається функція OCR, яка по суті може помістити невидимий шар тексту OCR на поверх сканованого документа. Таким чином, те, що ви бачите на екрані, є оригінальним відсканованим документом, але результат можна шукати.

Що я шукаю - це спосіб автоматизувати цей процес. В даний час у мене є кілька сценаріїв, які ми використовуємо для обробки та архівації відсканованих файлів, і шукаю те, що я можу підключити прямо до цього пакетного процесу, щоб зробити OCR таким чином, як я можу зробити з Acrobat.

Всі пропозиції вітаємо, дякую!


1
PS - Я намагаюся тримати питання користувачів щодо суперпользователя. Однак реалізація, що випливає з цього питання, безумовно, буде жити на сервері, на якому я обробляю скановану документацію ... тож це було підкидання.
Боден

Відповіді:


8

Я реалізував це в проекті архівування документів компанії. Відсканований файл - це файл tif (одна сторінка). Потім за допомогою Cuneiform створити файл hocr єдиного tif. Потім за допомогою hocr2pdf виведіть файл PDF. Якщо декілька сторінок сканування, я використовую gs, щоб об'єднати PDF-файли в один документ PDF. Працює дуже добре, OCR достатньо хороший для наших потреб і його можна шукати в будь-якому переглядачі PDF.


Цікаво. Перш ніж я витрачаю занадто багато часу на його перегляд, чи отримане PDF зображення є оригінальним скануванням із вбудованим текстовим шаром, чи це лише текст?
Боден

Це зображення оригінального сканування із вбудованим текстовим шаром. Файл hocr - це вихід тексту з розмітками html.
xeon

Відмінно. Я збираюся його зняти. Якщо схоже, що це спрацює, я позначу вашу відповідь прийнятою. Дякую!
Боден

1
Знову дякую. Трохи боліло встановити цих двох хлопців, але це працює. Я написав простий скрипт, щоб перевірити папку FTP на нові .tif-файли, на яких він працює клинописом та hocr2pdf, а потім завантажує результати в бібліотеку документів гострої точки за допомогою curl. Таким чином, люди можуть архівувати документи прямо з копіювальної машини, а в архівах можна шукати текст повністю. Питання: чи знаєте ви, що робить опція "перезапис роздільної здатності" в hocr2pdf?
Боден

Я радий, що це працює для вас. Я не знаю, що аргумент -r робить.
xeon

1

Ви дивилися на WatchOCR? Ви можете завантажити його з http://www.watchocr.com Це безкоштовний OCR-сервер із відкритим кодом, який перетворює зображення лише у форматі pdfs у формати файлів, у яких можна шукати текст, із папки, що переглядається, або спільної мережі.


0

Мені подобаються звуки відповіді ксеона , хоча OCRopus звучить дуже весело.


Коли я досліджував і тестував різні рішення. Я спробував це і tesseract-ocr, і вони не мали хорошого способу виводу у PDF на той час. Я не розглядав, чи є у них такі особливості ... Я знаю, що tesseract-ocr має це у своїй часовій шкалі ...
xeon
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.