Мені потрібні PDF-файли для тексту, щоб я міг шукати їх масово з командного рядка. Чи є якийсь конвертер для Ubuntu, OBSD або подібного дистрибутива?
Можливо , пов'язана з пост, OCR з Убунту тут .
pdftotext
= pdfcat
.
Мені потрібні PDF-файли для тексту, щоб я міг шукати їх масово з командного рядка. Чи є якийсь конвертер для Ubuntu, OBSD або подібного дистрибутива?
Можливо , пов'язана з пост, OCR з Убунту тут .
pdftotext
= pdfcat
.
Відповіді:
У вас є маса варіантів!
pdftotext
від poppler вже згадувалося.
Існує програма Haskell, яка називаєтьсяpdf2line
добре.
Калібру «сек ebook-convert
програма командного рядка (або калібр сам по собі) є ще одним варіантом; він може конвертувати PDF у звичайний текст чи інший формат електронної книги (RTF, ePub), на мою думку, він дає кращі результати, ніж pdftotext, хоча він значно повільніше.
ebook-convert file.pdf file.txt
AbiWord може конвертувати між командним рядком будь-який формат, який він знає, і принаймні необов'язково має плагін для імпорту в PDF:
abiword --to=txt file.pdf
Ще один варіант - podofotextextract
з бібліотеки інструментів PDF podofo. Я не дуже цього намагався.
Якщо ви поєднали два інструменти Ghostscript, pdf2ps
і у ps2ascii
вас є ще один варіант.
Насправді я можу придумати ще кілька методів, але поки покину це. ;)
pdftotext
дає більш точні результати, ніж ebook-convert
це дуже швидко. ebook-convert
млявий.
pdftotext
з -layout
варіантами скель! calibre
для встановлення потрібно більше 600mb! Це божевільно)
Ви можете конвертувати PDF-файли в текст у командному рядку за допомогою pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utils
пакет).
Ви можете використовувати Recoll
(Ubuntu: recll ; OpenBSD: немає порту, але є такий для FreeBSD .) Для пошуку всередині різних форматованих типів текстових документів, включаючи PDF. Є графічний інтерфейс, і він автоматично створює індекс під кришкою. Він використовує pdftotext
для перетворення PDF у текст.
Acrobat Reader (принаймні версія 9 під Linux) має обмежену можливість пошуку кількох файлів (можна шукати у всіх файлах у каталозі).
pdftotext - це, ймовірно, те, що ви шукаєте: http://en.wikipedia.org/wiki/Pdftotext, якщо текст, який ви хочете витягти, дійсно не має графічної форми, що не так часто зустрічається з документами pdf.
gPDFText перетворює вміст електронної книги в текст ASCII, переформатований для абзаців довгих рядків, він працює для мене і має графічний інтерфейс.
gPDFText
можна отримати, як це можна встановити та як це було б використано для відповіді на питання ОП.