Я шукаю бібліотеку PDF, яка дозволить мені витягти текст із PDF-документа. Я розглянув PyPDF, і це може дуже добре витягти текст з PDF-документа. Проблема цього полягає в тому, що якщо в документі є таблиці, текст у таблицях витягується в рядку з рештою тексту документа. Це може бути проблематично, оскільки воно створює розділи тексту, які не є корисними та виглядають спотвореними (наприклад, багато чисел, перетертих разом).
Я хотів би витягти текст із PDF-документа, виключаючи будь-які таблиці та спеціальне форматування. Чи існує там бібліотека, яка цим займається?