Як скопіювати текст з PDF, не втрачаючи форматування?


41

Коли я копіюю текст з PDF-файлу і в текстовому редакторі, він закінчується керованим різними способами. Форматування на зразок жирного шрифту та курсиву втрачається; розриви м'якої лінії в абзаці тексту перетворюються на перерви жорсткої лінії; тире, щоб розбити слово на два рядки, зберігається навіть тоді, коли їх не повинно бути; і одинарні та подвійні лапки замінюються на? знаки.

В ідеалі я хотів би мати можливість копіювати текст з PDF та форматування, перетворене на HTML-коди, "розумні цитати", перетворені на "та", та розриви рядків виконано належним чином. Чи є спосіб це зробити?


2
Word 2013 може відкривати PDF-файли. Не ідеальний. Але
виконується

Може бути пов’язано: superuser.com/a/455278/13787
Стівен Р. Луміс

Відповіді:


54

По-перше, ви повинні зрозуміти, що таке PDF. PDF-файли призначені для імітації друкованої сторінки, і вони розроблені лише як вихідний формат, а не як формат введення. PDF - це в основному карта, що містить точне розташування символів (окремих літер або пунктуації тощо) або зображень. У більшості випадків PDF-файл навіть не зберігає інформацію про те, де закінчується одне слово, а інше починається, набагато менше речей, таких як м'які перерви проти жорстких перерв для закінчення абзацу.

(Кілька останніх PDF-файлів зберігають деяку інформацію про цей матеріал, але це нова технологія, і вам пощастить знайти такі PDF-файли. Навіть якщо ви це зробили, ваш переглядач PDF може не знати про це.)

У будь-якому разі, за вашим програмним забезпеченням належить реалізувати якийсь "штучний інтелект", щоб витягнути лише з розташування окремих символів, що таке слово, що є абзацом тощо. Різне програмне забезпечення буде робити це краще, ніж інші, і це також залежатиме від того, як було зроблено PDF-файл. У будь-якому випадку ніколи не слід очікувати ідеальних результатів. Мати вихідний PDF - це не те саме, що мати вихідний документ. Набагато краще спробувати отримати це, якщо зможете.

Стандартним рішенням вашої проблеми є використання Adobe Acrobat Professional (дорогого, а не безкоштовного зчитувача) для перетворення PDF у HTML. Навіть це не дасть ідеальних результатів.

Існує безкоштовне програмне забезпечення, яке може використовуватися для вилучення тексту з PDF-файлів з деяким форматом неушкодженим, але знову ж таки, не очікуйте ідеальних результатів. Дивіться, наприклад, калібр (який може конвертувати у формат RTF), pdftohtml / pdfreflow або текстовий процесор AbiWord (з увімкненими плагінами імпорту / експорту). Також є плагін для імпорту PDF для OpenOffice.

Але будь ласка, не сподівайтесь на вдосконалення будь-якого з цих результатів. Ти йдеш проти зерна тут. PDF просто не означає як редагований формат введення.


2
зворотній зв'язок через 5 років: нічого кращого не було: мені довелося перетворити його в HTML (використовуючи acrobat x), а потім вставити кожен рядок у таблицю MSword. (Збереження слова або excel або txt просто зіпсувало все, копія минулого з хрому теж не працювала). Ще чекаю (дуже) розумного програмного забезпечення.
JinSnow

клацніть правою кнопкою миші на таблиці, вибравши «копіювати з форматуванням», також працюйте, з обмеженнями, згаданими вище
JinSnow

1
Оскільки це прийнята відповідь, я пропоную вам також згадати про (новіший) варіант, протлала, який написав у своєму коментарі - відкрийте pdf безпосередньо з Word 2013. На деяких pdfs я спробував, що він дав кращі результати, ніж у всіх перерахованих вище програмних засобів.
BornToCode

8

Ще один варіант - завантажити та почати використовувати безкоштовний переглядач PDF, Foxit (його добре). Потім ви можете "Зберегти як" і вибрати .txt для перетворення його в текстовий файл. Це збереже все форматування. Не знаю, чи можете ви зробити те ж саме в Adobe, тому що я перестав його використовувати деякий час тому, коли я перейшов на Foxit.


"Зберегти як ... Текст" працював для мене з кількома безкоштовними програмами перегляду PDF.
Джефф

Я використовую Foxit, і я просто спробував це, я б не сказав, що він зберігав форматування. І все, що я хотів, - це пристойні закінчення рядків і кожен абзац як абзац.
пгр

Використовуючи txt, ви втратите все форматування: шрифти, жирний шрифт, курсив, кольори та, звичайно, більш досконалі варіанти
сканувати

Foxit Reader відмінно працював на мене
Майкл Транчіда

5

Є дуже хороший інтернет-інструмент під назвою Sej-da . Він займається вдосконаленою маніпуляцією PDF. Немає програмного забезпечення для завантаження. Оскільки це новий онлайн-інструмент, він наразі все ще знаходиться у бета-версії. Це дозволяє витягувати текст з PDF, а також надає безліч інших функцій PDF

http://www.sejda.com/

Короткий відео огляд функцій sejda було зроблено 14 листопада 2012 року за версією 3, її можна знайти тут:

http://revision3.com/tzdaily/sejda-online-pdf


1
Ще можна завантажити інструмент командного рядка: sejda.org/download (я не думаю, що це дозволяє витягувати текст із форматуванням?)
Арджан

Я вже рекомендував Сейду вище Аряна
Саймон

1
Так? Я тільки мав на увазі: ти кажеш, що це інтернет-інструмент, але можна також завантажити те саме. Крім того, дивлячись на це далі: я не думаю, що це збереже форматування, як просили?
Ар’ян

Мені добре відомо, що про збереження формату було запропоновано, але якщо ви не спробуєте, ви ніколи не дізнаєтесь.
Саймон

Оскільки це безкоштовний інструмент з безліччю функцій і навіть не вийшов з бета-версії - нічого втрачати, але спробуйте. З часом його набір функцій, ймовірно, буде розширений, але поки що не можу поскаржитися.
Саймон

5

Відкрийте свій PDF-файл у веб-переглядачі (тестуються Google Chrome та firefox), а потім скопіюйте текст.


На жаль, це не спрацювало для мене у Firefox.
Reb

закрити. FF зберігав розміри шрифту як мінімум. Chrome погано вийшов з ладу, навіть не надсилаючи рядки.
nd34567s32e

З жовтня 2019 року відкриття PDF у Chrome та копіювання / вставка в текстовий редактор принаймні зберігає кінець рядка (але, на жаль, не будь-який провідний пробіл у рядках).
DocOc

4

Для цього можна використовувати Adobe Acrobat Pro.

Для таблиць: У програмі Acrobat 9/10 з'явилася функція вибору таблиць. За допомогою Acrobat X ви можете просто натиснути Зберегти як> Електронна таблиця> Excel. Він навіть об'єднує сторінки в одну довгу електронну таблицю. Дивовижна особливість.

Для тексту: Подібна функція існує для експорту в MS Word. Зберегти як> Word> Word Doc.

Джерела:


0

Foxit буде перемикатися між відображенням оригінального файлу як звичайного PDF або тексту як натискання клавіш Ctrl + 6 (з невеликим змістом рівня масштабування текстового режиму між читанням та копіюванням не можна переходити в положення вперед і назад)


0

Я вважаю це дуже корисним ( Видалити перерви у рядку ):

Ось корисний трюк для швидкого вирішення цього питання без необхідності видаляти всі розриви рядків вручну. В основному, все, що він робить, це автоматично замінити всі непотрібні розриви рядків на один пробіл, змусивши весь текст об’єднатись в один абзац:

1- скопіюйте потрібний текст з PDF.

2- вставити в новий документ Word.

3- натисніть «редагувати», а потім «замінити»

4- переконайтеся, що ви знаходитесь у полі "знайти що"

5- натисніть "більше", а потім "спеціальний"

6- виберіть "абзац" (верхній частині списку)

7- натисніть поле «замінити на»

8- натисніть пробіл один раз

9 - натисніть «Замінити все»

10 - натисніть «ОК», а потім закрийте поле «Знайти та замінити».


-1

Ви можете скопіювати з Adobe Reader в MS Excel та форматувати (таблицю) так, як вам потрібно, а потім скопіювати та вставити з Excel. Це рішення чудово працює. Вам не потрібно купувати дорогу професійну копію Adobe.


У питанні обговорюється текст. Як ви вважаєте, це було б хорошим загальним рішенням для тексту, включаючи перетворення форматування в HTML-коди?
fixer1234

-1

Я намагався зберегти текст та формат PDF, який був організований у таблиці. У програмі Acrobat Professional я зрозумів, що є опція "Зберегти як", яка дозволяє зберігати як документ excel. Це добре працювало для моїх потреб. Я також зауважив, що є також варіант документа "Зберегти як слово". Я не пробував цього.


2
Це дублює відповідь користувача156787.
fixer1234
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.