Відповідь Ігнасіо просто чудова. Насправді це було б перше, що в моєму списку. Ну, і, можливо, запропонувати pdftohtml
інструмент, який також постачається з poppler, у поєднанні з pdfreflow, якщо ви хочете спробувати зібрати текст у абзаци тощо. (Звичайно, це дасть вам вихід HTML, але перетворення HTML у звичайний текст може робиться багатьма способами.)
Ось ще кілька варіантів.
Інструмент ebook-convert
командного рядка від Caliber , який може конвертувати .PDF в звичайний текст (або RTF або декілька форматів книг, наприклад, ePub тощо)
pdftxtextract
від Подофо
Abiword можна викликати з командного рядка для конвертації між будь-якими форматами, в які він може вводити / експортувати, та з відповідним плагіном імпорту, сюди входять PDF-файли:
abiword --to=txt file.pdf
(Справедливо кажучи, я думаю, що AbiWord і caliber обидва використовують бібліотеки poppler, але я не позитивний.)