Мені потрібні PDF-файли для тексту, щоб я міг шукати їх масово з командного рядка. Чи є якийсь конвертер для Ubuntu, OBSD або подібного дистрибутива?
Можливо , пов'язана з пост, OCR з Убунту тут .
pdftotext= pdfcat.
Мені потрібні PDF-файли для тексту, щоб я міг шукати їх масово з командного рядка. Чи є якийсь конвертер для Ubuntu, OBSD або подібного дистрибутива?
Можливо , пов'язана з пост, OCR з Убунту тут .
pdftotext= pdfcat.
Відповіді:
У вас є маса варіантів!
pdftotextвід poppler вже згадувалося.
Існує програма Haskell, яка називаєтьсяpdf2line добре.
Калібру «сек ebook-convertпрограма командного рядка (або калібр сам по собі) є ще одним варіантом; він може конвертувати PDF у звичайний текст чи інший формат електронної книги (RTF, ePub), на мою думку, він дає кращі результати, ніж pdftotext, хоча він значно повільніше.
ebook-convert file.pdf file.txt
AbiWord може конвертувати між командним рядком будь-який формат, який він знає, і принаймні необов'язково має плагін для імпорту в PDF:
abiword --to=txt file.pdf
Ще один варіант - podofotextextractз бібліотеки інструментів PDF podofo. Я не дуже цього намагався.
Якщо ви поєднали два інструменти Ghostscript, pdf2psі у ps2asciiвас є ще один варіант.
Насправді я можу придумати ще кілька методів, але поки покину це. ;)
pdftotextдає більш точні результати, ніж ebook-convertце дуже швидко. ebook-convertмлявий.
pdftotextз -layoutваріантами скель! calibreдля встановлення потрібно більше 600mb! Це божевільно)
Ви можете конвертувати PDF-файли в текст у командному рядку за допомогою pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilsпакет).
Ви можете використовувати Recoll
(Ubuntu: recll ; OpenBSD: немає порту, але є такий для FreeBSD .) Для пошуку всередині різних форматованих типів текстових документів, включаючи PDF. Є графічний інтерфейс, і він автоматично створює індекс під кришкою. Він використовує pdftotextдля перетворення PDF у текст.
Acrobat Reader (принаймні версія 9 під Linux) має обмежену можливість пошуку кількох файлів (можна шукати у всіх файлах у каталозі).
pdftotext - це, ймовірно, те, що ви шукаєте: http://en.wikipedia.org/wiki/Pdftotext, якщо текст, який ви хочете витягти, дійсно не має графічної форми, що не так часто зустрічається з документами pdf.
gPDFText перетворює вміст електронної книги в текст ASCII, переформатований для абзаців довгих рядків, він працює для мене і має графічний інтерфейс.
gPDFTextможна отримати, як це можна встановити та як це було б використано для відповіді на питання ОП.