tl; dr? Почніть з Nuance PowerPDF Advanced.
Я оцінив програмне забезпечення OCR у грудні 2014 року в рамках підготовки до великого проекту - OCR на мільйонах англомовних сторінок, зроблених партіями. Якщо ви готові витратити кілька сотень доларів, у вас є багато варіантів; пробні версії можуть отримати вас через те, що вам потрібно конвертувати лише кілька сотень сторінок.
Багато програмних пакетів хочуть завантажити всі вхідні файли, зробити OCR і об'єднати безлад в один вихід. ІМХО, це неправильно, я не маю уявлення, хто б цього хотів. Я шукав справжню партію: один вихідний файл для кожного вхідного файлу, без нагляду операція, не зупиняйтеся ні на чому, дайте мені детальний звіт наприкінці. Попередження спойлера: Я цього не знайшов.
Пакети в алфавітному порядку дотримуються. Ціни, наведені нижче, є переліковими, але знижок багато. Прийміть мої коментарі щодо точності із зерном солі; ваші входи не будуть такими ж, як мої вхідні, тому ваш пробіг неодмінно змінюватиметься.
ABBYY Finereader 12 Корпоративний: 400 доларів. Пакетна функція називається "Диспетчер завдань" і знаходиться в меню Інструменти. Він буде обробляти файли з папки, включаючи вкладені папки; він щасливо створить окремий вихідний файл для кожного вхідного файлу. Здається, він не здатний зберегти ієрархію вхідних папок; всі вихідні файли перейшли до однієї вихідної папки. Точність була висока в моїх тестах, але все ще найнижча з перерахованих тут пакетів.
Adobe Acrobat XI: 300 доларів. Пакетна функція називається "Розпізнавання тексту / в декількох файлах", яку можна знайти, натиснувши на Інструменти (третя панель інструментів, у верхній правій частині головного екрана). Обробляє підпапки, один вихід на кожен вхід. Зупиняє та додає підказку, якщо знайде файл, захищений паролем. Не зберігає дерево каталогів вводу за замовчуванням; можна зробити це, записавши вихід у ту саму папку, що і вхід. Точність була досить хорошою в моїх тестах.
Nuance OmniPage Ultimate (він же v19): 500 доларів. Пакетна функція називається "DocuDirect", і це окрема програма, яка постачається з пакетом. Він буде обробляти папки та папки; якщо ви виберете функції правильно, воно збереже дерево каталогів вводу в області виводу. Один вихід на кожен вхід. Зупиняється та вимагає пароль для захищеного файлу. Здається, відмінно користуються багатоядерними процесорами для виконання завдань паралельно. Точність була відмінною . Але стабільність пакетного процесора погана; нечіткий документ зупинить його у своїх слідах, ніколи не відновиться, зірвавши партію з легкістю.
Nuance PowerPDF Advanced v1.1 (наступник OmniPage Ultimate): 150 доларів. Пакетна функція називається "Batch Converter", і вона доступна в головній програмі на вкладці "Advanced Processing". Він буде обробляти папки та підпапки, зберігаючи структуру вводу у виході. Один вихід на кожен вхід. Буде використовувати кілька ядер, але не агресивно; що це означає, що я не міг змусити його наситити багатоядерний хост. Точність є видатною , такою ж хорошою чи кращою, ніж OmniPage. Неправильні або нечіткі файли не спричинили його зависання. Пакетний процесор записує ( шокує ) звичайний текстовий файл журналу у вихідний каталог.
ReadIris Corporate 14: 600 доларів. Пакетна функція викликається пунктом "Batch OCR", який виявляється натисканням кнопки "З файлів" на головному екрані. Він буде обробляти папки та підпапки, по одному виходу на кожен вхід, і за замовчуванням структура каталогу виводу відповідає структурі каталогів вводу. Зупиняє та вимагає введення користувачем недійсного файлу; обробляє без додаткової скарги всі захищені документи, мабуть, за допомогою OCR-зображення. Точність була дуже хорошою, нарівні з Acrobat.
На моїй настільній машині (лише двоядерний), з обраними нами введеннями, для кожного пакету потрібно не менше 3 секунд для обробки сторінки; деякі брали більше. Можливо, зможете збити це на машині з більшою кількістю ядер.
У вас є багато, не забудьте запланувати їх: недійсні PDF-файли (деякі пакети зупиняються), PDF-файли, захищені паролем (деякі пакунки зупиняються, інші як ніколи конвертуються!), І обертові сторінки (пейзаж замість портрета). Якщо ви хочете, щоб пакет запустився до завершення, вам потрібно підготувати область введення для цих пакетів Дуже, дуже обережно. Подивіться на функцію друку в PDF пакету GhostScript, щоб отримати спосіб зняття захисту з PDF-файлів.
Запуск великих партій може призвести до виснаження пам’яті та проблем із повішенням, навіть якщо це не повинно (правда - ймовірно, протікає пам'ять). Якщо ви взагалі робите будь-яку автоматизацію, велика проблема виявляється після того, що насправді сталося - які документи не вдалося обробити, які не вдалося під час обробки і т. Д. Це як настільне програмне забезпечення, коли люди ніколи не чули про щось, що називається "файл журналу".
Нарешті, отримати підтримку, навіть як платний клієнт, досить складно для цих пакетів масового ринку. Наприклад, я поскаржився одному поважному представнику служби підтримки клієнтів щодо того, що пакет (який залишиться безіменним) висить на кілька великих входів. Я зачекав 36 годин, перш ніж здатись :). Вони солодко запропонували обмежити розмір партії до 300 документів. Це було для мене абсолютно неприйнятно, але так, швидше за все, цей квиток на підтримку закрився, так? І це все, що має значення, правда? Зітхнути.
HTH