Чи є якийсь PDF у текстовому конверторі?


21

Мені потрібні PDF-файли для тексту, щоб я міг шукати їх масово з командного рядка. Чи є якийсь конвертер для Ubuntu, OBSD або подібного дистрибутива?

Можливо , пов'язана з пост, OCR з Убунту тут .



Якщо це "справжній" PDF (зроблений з тексту тощо), pdftotext - найкраща ставка. Якщо це зображення, то найкраща ставка - це деякі речі OCR.
vonbrand

1
Я завжди використовую pdftotext= pdfcat.
ізоморфізми

Відповіді:


22

У вас є маса варіантів!

pdftotextвід poppler вже згадувалося.

Існує програма Haskell, яка називаєтьсяpdf2line добре.

Калібру «сек ebook-convertпрограма командного рядка (або калібр сам по собі) є ще одним варіантом; він може конвертувати PDF у звичайний текст чи інший формат електронної книги (RTF, ePub), на мою думку, він дає кращі результати, ніж pdftotext, хоча він значно повільніше.

ebook-convert file.pdf file.txt

AbiWord може конвертувати між командним рядком будь-який формат, який він знає, і принаймні необов'язково має плагін для імпорту в PDF:

abiword --to=txt file.pdf

Ще один варіант - podofotextextractз бібліотеки інструментів PDF podofo. Я не дуже цього намагався.

Якщо ви поєднали два інструменти Ghostscript, pdf2psі у ps2asciiвас є ще один варіант.

Насправді я можу придумати ще кілька методів, але поки покину це. ;)


Перетворювач книг калібру ... Ви бачили, що це стосується лігатур? bleargh. скажемо так: це не дуже ефективна програма. pdftotext набагато вірніше. я ніколи не виявляв жодних помилок у його результатах.
ixtmixilix

1
Ви можете використовувати менше для перегляду pdf-файлів як тексту. Він викликає препроцесора, тобто меншеpipe, для виклику pdftotext або подібних інструментів.
Даніель Наслунд

pdftotextдає більш точні результати, ніж ebook-convertце дуже швидко. ebook-convertмлявий.
Аміт Патель

pdftotextз -layoutваріантами скель! calibreдля встановлення потрібно більше 600mb! Це божевільно)
Сталінко

9

Ви можете конвертувати PDF-файли в текст у командному рядку за допомогою pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilsпакет).

Ви можете використовувати Recoll (Ubuntu: recll ; OpenBSD: немає порту, але є такий для FreeBSD .) Для пошуку всередині різних форматованих типів текстових документів, включаючи PDF. Є графічний інтерфейс, і він автоматично створює індекс під кришкою. Він використовує pdftotextдля перетворення PDF у текст.

Acrobat Reader (принаймні версія 9 під Linux) має обмежену можливість пошуку кількох файлів (можна шукати у всіх файлах у каталозі).


4

pdftotext - це, ймовірно, те, що ви шукаєте: http://en.wikipedia.org/wiki/Pdftotext, якщо текст, який ви хочете витягти, дійсно не має графічної форми, що не так часто зустрічається з документами pdf.



-1

gPDFText перетворює вміст електронної книги в текст ASCII, переформатований для абзаців довгих рядків, він працює для мене і має графічний інтерфейс.


3
Привіт і ласкаво просимо на сайт. Нам подобається, що відповіді тут є трохи більш вичерпними. Наприклад, ви можете додати, де gPDFTextможна отримати, як це можна встановити та як це було б використано для відповіді на питання ОП.
terdon
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.