З сьогоднішнього дня я це знаю: найкраще для вилучення тексту з PDF-файлів - це TET, інструментарій вилучення тексту . TET є частиною сімейства продуктів PDFlib.com.
PDFlib.com - компанія Томаса Мерца. Якщо ви не впізнаєте його імені: Томас Мерц є автором "Біблії PostScript і PDF".
Перше втілення ТЕТ - це бібліотека . Це, ймовірно, може зробити все, що хотів Budda006, включаючи позиційну інформацію про кожен елемент на сторінці. О, і це також може витягувати зображення. Він рекомбінує зображення, розбиті на частини.
pdflib.com пропонує ще одне втілення цієї технології, плагін TET для Acrobat . І третє втілення - iFilter PDFlib TET . Це окремий інструмент для робочих столів користувачів. Обидва вони безкоштовно (як у пиві) використовувати для приватних, некомерційних цілей.
І це справді потужно. Набагато краще, ніж власне вилучення тексту Adobe. Він витягнув текст для мене, де інші інструменти (включаючи Adobe) викидають лише сміття.
Я щойно перевірив автономний інструмент для настільних ПК, і те, що вони говорять на своїй веб-сторінці, є правдою. Він має дуже гарний командний рядок. Деякі з моїх «проблемних» тестових файлів PDF цей інструмент обробляв на моє повне задоволення.
Відтепер ця річ стане моєю рекомендацією для всіх складних та складних вимог до вилучення тексту PDF.
ТЕТ просто приголомшливий. Він виявляє таблиці. Всередині таблиць він визначає комірки, що охоплюють кілька стовпців. Він визначає рядки таблиці та вміст кожної комірки таблиці окремо. Він дуже добре справляється з переносами: видаляє дефіси і відновлює повноцінні слова. Він підтримує мови, що не належать до ASCII (включаючи CJK, арабську та іврит). Зустрічаючи лігатури, вона відновлює оригінальні символи ...
Спробувати.