Я шукаю інструмент для перегляду в режимі офлайн, який робить наявний файл PDF для пошуку, запустивши на ньому OCR, замінивши оригінальний файл, який не можна шукати, на пошукову версію, і може працювати без нагляду.
Наприклад, www.pdfscannerapp.com - робить саме те, що мені потрібно, але це лише GUI - не сценарій.
Мені відомо, що Evernote робить PDF-файли в пошуку, але вони залишаються в пошуку лише в межах Evernote.
Я не шукаю ідеального OCR, навіть помірно прийнятний OCR - це добре, але я вважаю за краще невелику утиліту, а не об'ємний пакет програм.
(Мені відомо про подібне, але інше питання щодо AD: Шукаю програмне забезпечення для сканування або перетворення на PDF, який можна шукати і підписувати. Однак мені не потрібно підписувати чи заповнювати PDF-файли, і моя вимога полягає в тому, щоб рішення було написано сценарієм )
Редагувати:
1) Деякі утиліти дозволяють структуроване вилучення тексту, однак для того, щоб бути вилученим, текст повинен бути там; Я в основному маю на увазі PDF-файли, які обертають растрові карти, як це стосується звичайних PDF-файлів, створених сканерами.
2) Мені не обов’язково шукати безкоштовне рішення, і я б більш ніж радий платити за хорошу утиліту, яка просто робить те, що мені потрібно, але я не шукаю громіздких додатків з мільйоном функцій, які включають функцію OCR, але вартість яких не виправдовує їх придбання лише для функціонування OCR.
3) Як було сказано вище, я не шукаю ідеального OCR, просто помірно прийнятного OCR. На жаль, на мій досвід, tesseract дійсно нижче цього порогу. Я визначаю "помірно прийнятний" OCR, який може, скажімо, OCR рахунку за комунальні послуги, щоб принаймні номер рахунку (номер клієнта) був розпізнаний правильно.
EDIT: "сценарій" або "автоматизований", тобто може бути запущений автоматично і запускатися без нагляду без будь-якого вступу людини.