Розбір PDF за допомогою Python - вилучення відформатованих та простих текстів [закрито]

Question 1

Зачинено. Це питання не відповідає вимогам щодо переповнення стека . Наразі відповіді не приймаються.

Хочете покращити це питання? Оновіть питання, щоб воно було актуальним для переповнення стека.

Закрито 5 років тому .

Я шукаю бібліотеку PDF, яка дозволить мені витягти текст із PDF-документа. Я розглянув PyPDF, і це може дуже добре витягти текст з PDF-документа. Проблема цього полягає в тому, що якщо в документі є таблиці, текст у таблицях витягується в рядку з рештою тексту документа. Це може бути проблематично, оскільки воно створює розділи тексту, які не є корисними та виглядають спотвореними (наприклад, багато чисел, перетертих разом).

Я хотів би витягти текст із PDF-документа, виключаючи будь-які таблиці та спеціальне форматування. Чи існує там бібліотека, яка цим займається?

Question 2

Ви також можете поглянути на PDFMiner (або для старих версій Python див. PDFMiner і PDFMiner ).

Особливою особливістю, що цікавить PDFMiner, є те, що ви можете контролювати, як він перегрупує текстові частини під час їх вилучення. Ви робите це, визначаючи пробіл між рядками, словами, символами тощо. Тож, можливо, налаштувавши це, ви зможете досягти бажаного (це залежить від мінливості ваших документів). PDFMiner також може вказати вам розташування тексту на сторінці, він може витягувати дані за допомогою ідентифікатора об'єкта та інших матеріалів. Тож копайтеся в PDFMiner і будьте творчими!

Але проблему насправді вирішити непросто, оскільки в PDF текст не є суцільним, а складається з безлічі невеликих груп символів, розташованих абсолютно на сторінці. Основна увага PDF полягає в тому, щоб зберегти макет цілим. Це не орієнтоване на вміст, а на презентацію.

Question 3

Цю проблему важко вирішити, оскільки візуально подібні PDF-файли можуть мати надзвичайно різну структуру залежно від способу їх створення. У гіршому випадку бібліотеці потрібно було б діяти як OCR. З іншого боку, PDF може містити достатню структуру та метадані для легкого видалення таблиць та рисунків, для чого бібліотека може бути адаптована.

Я майже впевнений, що не існує інструментів з відкритим кодом, які б вирішили вашу проблему для широкого кола PDF-файлів, але я пам’ятаю, що чув про комерційне програмне забезпечення, яке стверджує, що робить саме те, про що ви просите. Я впевнений, що ви натрапите на них під час гуглиння.