По-перше, ви повинні зрозуміти, що таке PDF. PDF-файли призначені для імітації друкованої сторінки, і вони розроблені лише як вихідний формат, а не як формат введення. PDF - це в основному карта, що містить точне розташування символів (окремих літер або пунктуації тощо) або зображень. У більшості випадків PDF-файл навіть не зберігає інформацію про те, де закінчується одне слово, а інше починається, набагато менше речей, таких як м'які перерви проти жорстких перерв для закінчення абзацу.
(Кілька останніх PDF-файлів зберігають деяку інформацію про цей матеріал, але це нова технологія, і вам пощастить знайти такі PDF-файли. Навіть якщо ви це зробили, ваш переглядач PDF може не знати про це.)
У будь-якому разі, за вашим програмним забезпеченням належить реалізувати якийсь "штучний інтелект", щоб витягнути лише з розташування окремих символів, що таке слово, що є абзацом тощо. Різне програмне забезпечення буде робити це краще, ніж інші, і це також залежатиме від того, як було зроблено PDF-файл. У будь-якому випадку ніколи не слід очікувати ідеальних результатів. Мати вихідний PDF - це не те саме, що мати вихідний документ. Набагато краще спробувати отримати це, якщо зможете.
Стандартним рішенням вашої проблеми є використання Adobe Acrobat Professional (дорогого, а не безкоштовного зчитувача) для перетворення PDF у HTML. Навіть це не дасть ідеальних результатів.
Існує безкоштовне програмне забезпечення, яке може використовуватися для вилучення тексту з PDF-файлів з деяким форматом неушкодженим, але знову ж таки, не очікуйте ідеальних результатів. Дивіться, наприклад, калібр (який може конвертувати у формат RTF), pdftohtml / pdfreflow або текстовий процесор AbiWord (з увімкненими плагінами імпорту / експорту). Також є плагін для імпорту PDF для OpenOffice.
Але будь ласка, не сподівайтесь на вдосконалення будь-якого з цих результатів. Ти йдеш проти зерна тут. PDF просто не означає як редагований формат введення.