Як скопіювати текст з PDF, не втрачаючи форматування?

41

Коли я копіюю текст з PDF-файлу і в текстовому редакторі, він закінчується керованим різними способами. Форматування на зразок жирного шрифту та курсиву втрачається; розриви м'якої лінії в абзаці тексту перетворюються на перерви жорсткої лінії; тире, щоб розбити слово на два рядки, зберігається навіть тоді, коли їх не повинно бути; і одинарні та подвійні лапки замінюються на? знаки.

В ідеалі я хотів би мати можливість копіювати текст з PDF та форматування, перетворене на HTML-коди, "розумні цитати", перетворені на "та", та розриви рядків виконано належним чином. Чи є спосіб це зробити?

pdf

— Колен
джерело

2

Word 2013 може відкривати PDF-файли. Не ідеальний. Але

— виконується

Може бути пов’язано: superuser.com/a/455278/13787

— Стівен Р. Луміс

54

По-перше, ви повинні зрозуміти, що таке PDF. PDF-файли призначені для імітації друкованої сторінки, і вони розроблені лише як вихідний формат, а не як формат введення. PDF - це в основному карта, що містить точне розташування символів (окремих літер або пунктуації тощо) або зображень. У більшості випадків PDF-файл навіть не зберігає інформацію про те, де закінчується одне слово, а інше починається, набагато менше речей, таких як м'які перерви проти жорстких перерв для закінчення абзацу.

(Кілька останніх PDF-файлів зберігають деяку інформацію про цей матеріал, але це нова технологія, і вам пощастить знайти такі PDF-файли. Навіть якщо ви це зробили, ваш переглядач PDF може не знати про це.)

У будь-якому разі, за вашим програмним забезпеченням належить реалізувати якийсь "штучний інтелект", щоб витягнути лише з розташування окремих символів, що таке слово, що є абзацом тощо. Різне програмне забезпечення буде робити це краще, ніж інші, і це також залежатиме від того, як було зроблено PDF-файл. У будь-якому випадку ніколи не слід очікувати ідеальних результатів. Мати вихідний PDF - це не те саме, що мати вихідний документ. Набагато краще спробувати отримати це, якщо зможете.

Стандартним рішенням вашої проблеми є використання Adobe Acrobat Professional (дорогого, а не безкоштовного зчитувача) для перетворення PDF у HTML. Навіть це не дасть ідеальних результатів.

Існує безкоштовне програмне забезпечення, яке може використовуватися для вилучення тексту з PDF-файлів з деяким форматом неушкодженим, але знову ж таки, не очікуйте ідеальних результатів. Дивіться, наприклад, калібр (який може конвертувати у формат RTF), pdftohtml / pdfreflow або текстовий процесор AbiWord (з увімкненими плагінами імпорту / експорту). Також є плагін для імпорту PDF для OpenOffice.

Але будь ласка, не сподівайтесь на вдосконалення будь-якого з цих результатів. Ти йдеш проти зерна тут. PDF просто не означає як редагований формат введення.

— frabjous
джерело

2

зворотній зв'язок через 5 років: нічого кращого не було: мені довелося перетворити його в HTML (використовуючи acrobat x), а потім вставити кожен рядок у таблицю MSword. (Збереження слова або excel або txt просто зіпсувало все, копія минулого з хрому теж не працювала). Ще чекаю (дуже) розумного програмного забезпечення.

— JinSnow

клацніть правою кнопкою миші на таблиці, вибравши «копіювати з форматуванням», також працюйте, з обмеженнями, згаданими вище

— JinSnow

1

Оскільки це прийнята відповідь, я пропоную вам також згадати про (новіший) варіант, протлала, який написав у своєму коментарі - відкрийте pdf безпосередньо з Word 2013. На деяких pdfs я спробував, що він дав кращі результати, ніж у всіх перерахованих вище програмних засобів.

— BornToCode

8

Ще один варіант - завантажити та почати використовувати безкоштовний переглядач PDF, Foxit (його добре). Потім ви можете "Зберегти як" і вибрати .txt для перетворення його в текстовий файл. Це збереже все форматування. Не знаю, чи можете ви зробити те ж саме в Adobe, тому що я перестав його використовувати деякий час тому, коли я перейшов на Foxit.

— Крис
джерело

"Зберегти як ... Текст" працював для мене з кількома безкоштовними програмами перегляду PDF.

— Джефф

Я використовую Foxit, і я просто спробував це, я б не сказав, що він зберігав форматування. І все, що я хотів, - це пристойні закінчення рядків і кожен абзац як абзац.

— пгр

Використовуючи txt, ви втратите все форматування: шрифти, жирний шрифт, курсив, кольори та, звичайно, більш досконалі варіанти

— сканувати

Foxit Reader відмінно працював на мене

— Майкл Транчіда

5

Є дуже хороший інтернет-інструмент під назвою Sej-da . Він займається вдосконаленою маніпуляцією PDF. Немає програмного забезпечення для завантаження. Оскільки це новий онлайн-інструмент, він наразі все ще знаходиться у бета-версії. Це дозволяє витягувати текст з PDF, а також надає безліч інших функцій PDF

http://www.sejda.com/

Короткий відео огляд функцій sejda було зроблено 14 листопада 2012 року за версією 3, її можна знайти тут:

http://revision3.com/tzdaily/sejda-online-pdf

— Саймон
джерело

1

Ще можна завантажити інструмент командного рядка: sejda.org/download (я не думаю, що це дозволяє витягувати текст із форматуванням?)

— Арджан

Я вже рекомендував Сейду вище Аряна

— Саймон

1

Так? Я тільки мав на увазі: ти кажеш, що це інтернет-інструмент, але можна також завантажити те саме. Крім того, дивлячись на це далі: я не думаю, що це збереже форматування, як просили?

— Ар’ян

Мені добре відомо, що про збереження формату було запропоновано, але якщо ви не спробуєте, ви ніколи не дізнаєтесь.

— Саймон

Оскільки це безкоштовний інструмент з безліччю функцій і навіть не вийшов з бета-версії - нічого втрачати, але спробуйте. З часом його набір функцій, ймовірно, буде розширений, але поки що не можу поскаржитися.

— Саймон

5

Відкрийте свій PDF-файл у веб-переглядачі (тестуються Google Chrome та firefox), а потім скопіюйте текст.

— гарсіні
джерело

На жаль, це не спрацювало для мене у Firefox.

— Reb

закрити. FF зберігав розміри шрифту як мінімум. Chrome погано вийшов з ладу, навіть не надсилаючи рядки.

— nd34567s32e

З жовтня 2019 року відкриття PDF у Chrome та копіювання / вставка в текстовий редактор принаймні зберігає кінець рядка (але, на жаль, не будь-який провідний пробіл у рядках).

— DocOc

4

Для цього можна використовувати Adobe Acrobat Pro.

Для таблиць: У програмі Acrobat 9/10 з'явилася функція вибору таблиць. За допомогою Acrobat X ви можете просто натиснути Зберегти як> Електронна таблиця> Excel. Він навіть об'єднує сторінки в одну довгу електронну таблицю. Дивовижна особливість.

Для тексту: Подібна функція існує для експорту в MS Word. Зберегти як> Word> Word Doc.

Джерела:

http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
Я щойно це зробив, і це спрацювало як шарм.

— користувач156787
джерело

0

Foxit буде перемикатися між відображенням оригінального файлу як звичайного PDF або тексту як натискання клавіш Ctrl + 6 (з невеликим змістом рівня масштабування текстового режиму між читанням та копіюванням не можна переходити в положення вперед і назад)

— Стоматично
джерело

0

Я вважаю це дуже корисним ( Видалити перерви у рядку ):

Ось корисний трюк для швидкого вирішення цього питання без необхідності видаляти всі розриви рядків вручну. В основному, все, що він робить, це автоматично замінити всі непотрібні розриви рядків на один пробіл, змусивши весь текст об’єднатись в один абзац:

1- скопіюйте потрібний текст з PDF.

2- вставити в новий документ Word.

3- натисніть «редагувати», а потім «замінити»

4- переконайтеся, що ви знаходитесь у полі "знайти що"

5- натисніть "більше", а потім "спеціальний"

6- виберіть "абзац" (верхній частині списку)

7- натисніть поле «замінити на»

8- натисніть пробіл один раз

9 - натисніть «Замінити все»

10 - натисніть «ОК», а потім закрийте поле «Знайти та замінити».

— небо-світло
джерело

-1

Ви можете скопіювати з Adobe Reader в MS Excel та форматувати (таблицю) так, як вам потрібно, а потім скопіювати та вставити з Excel. Це рішення чудово працює. Вам не потрібно купувати дорогу професійну копію Adobe.

— Муралі Састри
джерело

У питанні обговорюється текст. Як ви вважаєте, це було б хорошим загальним рішенням для тексту, включаючи перетворення форматування в HTML-коди?

— fixer1234

-1

Я намагався зберегти текст та формат PDF, який був організований у таблиці. У програмі Acrobat Professional я зрозумів, що є опція "Зберегти як", яка дозволяє зберігати як документ excel. Це добре працювало для моїх потреб. Я також зауважив, що є також варіант документа "Зберегти як слово". Я не пробував цього.

— Дуглас Томпсон
джерело

2

Це дублює відповідь користувача156787.

— fixer1234