Пакетний OCR для багатьох файлів PDF (ще не OCRed)? [зачинено]

9

Я використовую Google Desktop Search (я на Vista), і не всі мої файли PDF розпізнаються в моїй папці архіву. Це нормально, оскільки " PDF-файли, що містять відскановані зображення ", не індексуються ( http://desktop.google.com/support/bin/answer.py?hl=uk&answer=90651 )

Тому я хотів би OCR багато моїх PDF-файлів, які ще не є OCRed. Моя мета: я даю програмі папку, і вона сама шукає у підпапках файли PDF, які потрібно перетворити у PDF-OCRed-файли.

Примітка. Якщо раніше файл PDF був захищений паролем, я видалив пароль за допомогою іншого пакетного інструменту: verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

Будь-яка (не надто дорога) ідея?

Я вже пробував: Finereader 6 про на хр в той час, але не було ніякої процесор партії включений ... Paperfile paperfile.net , який використовує Tesseract http://code.google.com/p/tesseract-ocr/ . Але OCR - це лише PDF у текст, а не PDF у PDF! Також є ще один проект http://code.google.com/p/ocropus/

Спасибі заздалегідь ;)

pdf ocr desktop-search

— Ерб
джерело

Через рік оновлення: Привіт, мабуть, програмне забезпечення "ABBYY Hot Folder & Scheduling", включене лише до корпоративних та ліцензійних видань ABBYY FineReader (> v. 9.0), може допомогти (я не пробував цього: 600 $!)! Також Tesseract повинен працювати над Windows зараз (без успіху для мене зараз

— ;;

Також видання ABBYY FineReader (> v. 9.0) Pro має завдання автоматизації: ви вибираєте головну папку + її підпапки, і вона виконує цю роботу. Але головна проблема полягає в тому, що він відкриває всі pdf одразу (!!), потім читає їх (= ocr), а потім зберігає унікальний pdf-файл! Тож якщо у вас є сотні файлів у форматі PDF, чорт не працює для мене! ; (Шкода, який кошмар

— !;

6

tl; dr? Почніть з Nuance PowerPDF Advanced.

Я оцінив програмне забезпечення OCR у грудні 2014 року в рамках підготовки до великого проекту - OCR на мільйонах англомовних сторінок, зроблених партіями. Якщо ви готові витратити кілька сотень доларів, у вас є багато варіантів; пробні версії можуть отримати вас через те, що вам потрібно конвертувати лише кілька сотень сторінок.

Багато програмних пакетів хочуть завантажити всі вхідні файли, зробити OCR і об'єднати безлад в один вихід. ІМХО, це неправильно, я не маю уявлення, хто б цього хотів. Я шукав справжню партію: один вихідний файл для кожного вхідного файлу, без нагляду операція, не зупиняйтеся ні на чому, дайте мені детальний звіт наприкінці. Попередження спойлера: Я цього не знайшов.

Пакети в алфавітному порядку дотримуються. Ціни, наведені нижче, є переліковими, але знижок багато. Прийміть мої коментарі щодо точності із зерном солі; ваші входи не будуть такими ж, як мої вхідні, тому ваш пробіг неодмінно змінюватиметься.

ABBYY Finereader 12 Корпоративний: 400 доларів. Пакетна функція називається "Диспетчер завдань" і знаходиться в меню Інструменти. Він буде обробляти файли з папки, включаючи вкладені папки; він щасливо створить окремий вихідний файл для кожного вхідного файлу. Здається, він не здатний зберегти ієрархію вхідних папок; всі вихідні файли перейшли до однієї вихідної папки. Точність була висока в моїх тестах, але все ще найнижча з перерахованих тут пакетів.

Adobe Acrobat XI: 300 доларів. Пакетна функція називається "Розпізнавання тексту / в декількох файлах", яку можна знайти, натиснувши на Інструменти (третя панель інструментів, у верхній правій частині головного екрана). Обробляє підпапки, один вихід на кожен вхід. Зупиняє та додає підказку, якщо знайде файл, захищений паролем. Не зберігає дерево каталогів вводу за замовчуванням; можна зробити це, записавши вихід у ту саму папку, що і вхід. Точність була досить хорошою в моїх тестах.

Nuance OmniPage Ultimate (він же v19): 500 доларів. Пакетна функція називається "DocuDirect", і це окрема програма, яка постачається з пакетом. Він буде обробляти папки та папки; якщо ви виберете функції правильно, воно збереже дерево каталогів вводу в області виводу. Один вихід на кожен вхід. Зупиняється та вимагає пароль для захищеного файлу. Здається, відмінно користуються багатоядерними процесорами для виконання завдань паралельно. Точність була відмінною . Але стабільність пакетного процесора погана; нечіткий документ зупинить його у своїх слідах, ніколи не відновиться, зірвавши партію з легкістю.

Nuance PowerPDF Advanced v1.1 (наступник OmniPage Ultimate): 150 доларів. Пакетна функція називається "Batch Converter", і вона доступна в головній програмі на вкладці "Advanced Processing". Він буде обробляти папки та підпапки, зберігаючи структуру вводу у виході. Один вихід на кожен вхід. Буде використовувати кілька ядер, але не агресивно; що це означає, що я не міг змусити його наситити багатоядерний хост. Точність є видатною , такою ж хорошою чи кращою, ніж OmniPage. Неправильні або нечіткі файли не спричинили його зависання. Пакетний процесор записує ( шокує ) звичайний текстовий файл журналу у вихідний каталог.

ReadIris Corporate 14: 600 доларів. Пакетна функція викликається пунктом "Batch OCR", який виявляється натисканням кнопки "З файлів" на головному екрані. Він буде обробляти папки та підпапки, по одному виходу на кожен вхід, і за замовчуванням структура каталогу виводу відповідає структурі каталогів вводу. Зупиняє та вимагає введення користувачем недійсного файлу; обробляє без додаткової скарги всі захищені документи, мабуть, за допомогою OCR-зображення. Точність була дуже хорошою, нарівні з Acrobat.

На моїй настільній машині (лише двоядерний), з обраними нами введеннями, для кожного пакету потрібно не менше 3 секунд для обробки сторінки; деякі брали більше. Можливо, зможете збити це на машині з більшою кількістю ядер.

У вас є багато, не забудьте запланувати їх: недійсні PDF-файли (деякі пакети зупиняються), PDF-файли, захищені паролем (деякі пакунки зупиняються, інші як ніколи конвертуються!), І обертові сторінки (пейзаж замість портрета). Якщо ви хочете, щоб пакет запустився до завершення, вам потрібно підготувати область введення для цих пакетів Дуже, дуже обережно. Подивіться на функцію друку в PDF пакету GhostScript, щоб отримати спосіб зняття захисту з PDF-файлів.

Запуск великих партій може призвести до виснаження пам’яті та проблем із повішенням, навіть якщо це не повинно (правда - ймовірно, протікає пам'ять). Якщо ви взагалі робите будь-яку автоматизацію, велика проблема виявляється після того, що насправді сталося - які документи не вдалося обробити, які не вдалося під час обробки і т. Д. Це як настільне програмне забезпечення, коли люди ніколи не чули про щось, що називається "файл журналу".

Нарешті, отримати підтримку, навіть як платний клієнт, досить складно для цих пакетів масового ринку. Наприклад, я поскаржився одному поважному представнику служби підтримки клієнтів щодо того, що пакет (який залишиться безіменним) висить на кілька великих входів. Я зачекав 36 годин, перш ніж здатись :). Вони солодко запропонували обмежити розмір партії до 300 документів. Це було для мене абсолютно неприйнятно, але так, швидше за все, цей квиток на підтримку закрився, так? І це все, що має значення, правда? Зітхнути.

HTH

— chrisinmtown
джерело

Привіт Кріслотт, дякую за детальну відповідь. ;) Я оцінив. ;) Ми з'явилися більш ніж 4 роки пізніше і неймовірно досі жодне програмне забезпечення не є ідеальним для того, щоб просто зробити автоматичний OCR у папці та випустити файл журналу з помилками після закінчення! ... Можливо, я спробую зв’язатися з Нюансом.

— Ерб

Зараз я використовую стару версію Acrobat pro та кілька безкоштовних програм. Це довгий процес. Я можу деталізувати це за потреби! Але робота робиться якнайкраще! ;)

— Ерб

3

Adobe Acrobat оброблятиме папку PDF-файлів, як і більшість продуктів Adobe, триває 30-денний пробний термін .
Функція розташована в меню "Документ":

Документ> Перезаписування тексту OCR> Розпізнайте текст у кількох файлах за допомогою OCR

звідки ви можете додати свою папку.

У Acrobat X функція доступна наступним чином:

Інструменти> Розпізнати текст> У кількох файлах

— пельменів
джерело

Дякую вам "пелми". ;) Я спробую це, як дозволяє час. Те, що мені сподобалось у попередній пробній версії файлу finereader.abbyy.com, - це те, що він може розпізнавати кілька різних мов. ;)

— Ерб

1

Насправді, pdfsandwich було оновлено протягом останнього року, і мені це було зовсім не складно встановити в Linux Mint. Результати, які він дає, поступаються Adobe Acrobat, але це єдине працююче рішення, яке я знайшов в Linux до цих пір.

— Брайан Z
джерело

1

Дуже цікаво! Я про це не знав. Я додаю посилання від en.wikisource.org/wiki/… і перевіряю його в якийсь момент у майбутньому. (Насправді є багато інших рішень, але я не розпочну тут!)

— Немо

0

Спробуйте WatchOCR . Це програмний пакет з відкритим кодом, який перетворює відскановані зображення в текстові файли pdfs. Він безкоштовний і з відкритим кодом і має приємний веб-інтерфейс для віддаленого адміністрування. При правильній конфігурації його можна використовувати для створення пакетного пакету pdf / ocr для всієї мережі за допомогою smb-спільного доступу. На жаль, це лише Linux. Але ви можете встановити його на старий сервер, і тоді ваша організація могла б ним користуватися.

Якщо ви хочете зробити те ж саме в Інтернеті, не встановлюючи нічого, спробуйте PDFCubed.com

— rlangner
джерело

Домашня сторінка WatchOCR присіла, хоч і архівована

— Тобіас Кіенцлер