Коли я намагаюся витягти текст з PDF за допомогою команди pdftotext в Linux, я отримав помилку


0

root @ kali: ~ / Desktop # pdftotext PaySlip.pdf

Синтаксична помилка: відсутній "endstream" або неправильна довжина потоку

Що це означає ? Чи не вдається знайти кінцевий файл PDF?
Будь ласка, допоможіть .

Відповіді:


0

PDF-файл містить об'єкти; Об'єкти можуть містити потоки (часто стискаються), а потік завершується endstream. Відкрийте його в текстовому редакторі, щоб отримати краще уявлення про те, як він виглядає.

Отже, принаймні один об'єкт у вашому PDF-файлі може бути пошкоджений, оскільки дана довжина потоку не відповідає позиції, де endstream має бути. Інші інструменти PDF можуть або не піклуються про цю невідповідність (саме тому ви можете робити цікаві речі з файлами PDF).

Таким чином: виправити PDF-файл, або вручну, або ви можете спробувати такі інструменти mutool.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.