Як шанувальник відкритого коду (та автоматизації) я ненавиджу це говорити, але найкращі результати, які я щойно отримав (на досить великому, складному PDF), були відкрити його в Adobe Reader, а потім вибрати File | Save As Text.
(Я попередньо обробляю експерименти з аналізу тексту, а не як читач, але думаю, що мій перший і другий вибір були б однаковими.)
Я порівнював вихідний бік. Мій другий вибір - перетворення електронних книг.
Adobe : ліворуч у FF для розривів сторінок, ліворуч у номерах сторінок, не перетворив заголовки / абзаци в єдині рядки, але має фіксовані дефіси. Небажана, що була захована в PDF-файлі, не вийшла. Правильно отримали великі столиці на початку розділів, наприклад, "The", а не "T he" або навіть "T he".
Перетворення електронних книг : залишені номери сторінок, а також деякі приховані сміття в заголовку / нижньому колонтитулі (але не FF). Перетворює більшість абзаців у одиночні рядки. Ті, що його пропустили, хоч і подвійні між собою! Кулі не завжди вирівнюються з текстом. Правильно отримано "The" на початку розділу.
pdftotext (без - планування) : непогано, кулі вишикуються, але шум заголовка / колонтитула. FF є там. Дефіси видалено. Найгірше для початку великими літерами глави: "T \ n \ nhe".
pdftotext (з --layout) : подібні, але більше відступів. "T he" для початку розділу.
pdftohtml >> pdfreflow >> htmltotext : Вилучені номери сторінок, але все ще залишаються у верхньому / нижньому колонтитулі. "T he" для початку розділу. Дефіси видалено. (Він використовує кілька рядків на абзац, але вони не є такими ж розривами рядків, як в інших версіях!)