Мені потрібно отримати тисячі фрагментів тексту з PDF-файлів до електронної таблиці. Вони короткі, рідко більше 2-3 рядків, але кожен розрив рядка створює нову клітинку, і мені доведеться відремонтувати цю вручну, що коштує багато часу.
Оскільки у мене їх так багато, використання способу "вставити в Word і зробити" знайти і замінити "- це занадто витрачає час на мене. Чи існує спосіб зникнення розриву рядка під час копіювання? Можливо, є переглядач, який пропонує для цього спеціальний режим копіювання, або має плагін?
Документи - наукові статті. Композиція тексту досить лінійна. Ви можете припустити, що текст, який я копіюю, не знаходиться всередині таблиці чи поплавця, а не обертається чи нічого. (Якщо таке трапиться, я думаю, я з цим впораюся вручну). Текст часто встановлюють у два стовпці, але я не маю проблем із маркуванням лише потрібного мені тексту з його стовпця. Мені не потрібно зберігати будь-яке спеціальне форматування. Я готовий спробувати рішення, яке, наприклад, видаляє всі недруковані символи. Тексти англійською мовою, це нормально, якщо рішення працює лише в ASCII / смугах усіх не алфавітно-цифрових ASCII скопійованого тексту.
Я дуже віддаю перевагу рішенню, яке буде працювати на Linux, можливо, якийсь плагін Okular. Але якщо трапляється рішення для Windows, я хочу також почути про це. У мене є ліцензія на дещо останній Acrobat Pro на машині Windows.