Як перетворити PDF-файл у непридатний файл?


32

Я хочу перетворити .pdfфайл у .odtфайл, щоб потім міг перетворити його у .docфайл. Чи є якесь програмне забезпечення / сценарій, який може це зробити. Я спробував скопіювати вміст .pdfфайлу і вставив його у програму liberoffice, форматування не збереглося.

Документ є конфіденційним, тому я не вважаю за краще використовувати будь-яку он-лайн послугу для конверсії.

Будь-яка допомога високо цінується.


Пов'язані (але не дублікат!): Як перетворити невідкладне у PDF?
Елія Каган

1
Для конкретних питань LibreOffice / OpenOffice Я рекомендую ask.libreoffice.org
Bucic

Відповіді:


15

Мене роздратувала відсутність безкоштовного PDF в ODT конвертер. Мені навіть не було потрібно нічого складного. Просто інструмент, який генерує файли ODT, які потім я можу коментувати у LibreOffice (наприклад, для заповнення форм).

Я знаю, як це зробити вручну, конвертуючи PDF-документ у графічні файли та потім імпортуючи їх у LibreOffice, але це стає стомлюючим досить швидко.

Отже, я нарешті написав швидкий маленький сценарій оболонки, який виконує всі необхідні кроки автоматично. Ви можете знайти його за посиланням https://github.com/gutschke/pdf2odt

Він може приймати будь-яку кількість PDF-файлів і файлів зображень як вхідних даних і генерує файл ODT, який можна відкривати та редагувати в LibreOffice. Зображення відображаються як фон сторінки, тому ви можете вільно писати над ними. Кожне зображення асоціюється із власним стилем сторінки. Пам’ятайте про це, вставляючи перерви на сторінку та, відповідно, коригуйте стиль сторінки.

Я протестував сценарій як на Linux, так і на Mac. Враховуючи, що для цього потрібна лише кілька розумно стандартних інструментів, вона повинна бути досить портативною.


Цей сценарій робить скріншоти кожної сторінки та розміщує їх у цільовому форматі. Дякую за сценарій Гутшке
Олівер

Я використовував pdf2ooкілька років тому, але, схоже, зараз створює пошкоджені файли для LibreOffice. Цей сценарій робить це і багато іншого - дякую!
eacousineau

3
Скрипт pdf2odt, на жаль, перетворюється у формат зображення, який використовується як фон ODT. Не сподівайтесь, що зможете "відредагувати" будь-який оригінальний текст.
Річард Елкінс

13

Ви можете подивитися PDF Utilities(poppler-utils через Synaptic або apt-get), що включає pdftotext :

Poppler - це бібліотека візуалізації у форматі PDF на основі перегляду PDF-файлів Xpdf.

Цей пакет містить утиліти командного рядка (засновані на Poppler) для отримання інформації про документи PDF, перетворення їх в інші формати або маніпулювання ними:
* pdfdetach - списки або витягування вбудованих файлів (вкладень)
* pdffonts - аналізатор шрифтів
* pdfimages - зображення екстрактор
* pdfinfo - інформація про документ
* pdfseparate - інструмент для вилучення сторінок
* pdftocairo - PDF в PNG / JPEG / PDF / PS / EPS / SVG конвертер за допомогою Каїра
* pdftohtml - PDF в HTML конвертер
* pdftoppm - PDF в PPM / PNG / JPEG конвертер зображень
* pdftops - PDF в PostScript (PS) конвертер
* pdftotext - вилучення тексту
* pdfunite - інструмент об’єднання документів

Звичайно, успіх буде залежати від того, як був створений файл pdf. Якщо ви отримаєте те, що ви хочете, як текстовий файл, ви можете зберегти це як .odt файл.

Редагувати: я забув надати джерело для цитати. Це на вкладці опису в Synaptic дляPDF Utilities (based on Poppler).


3
З цього списку pdftohtmlмає бути найкраще відповідне завдання, оскільки HTML може нести форматування. Тоді HTML можна перетворити на ODT або DOC.
imz - Іван Захарящев

10

LibreOffice здатний імпортувати .pdfфайли. Просто відкрийте його в поточній версії LibreOffice для найкращих результатів. Однак він відкриє документ як малюнок, і ви зможете конвертувати його лише в один із підтримуваних форматів зображень, а не як документ Writer.

Природно, збережено не все форматування, але хоча б якесь.


1
Я спробував це нещодавно, і це просто жахливо, але це навіть не економить форматування. Більше того, це робить текст зовсім нечитабельним.
Привіт-Ангел

3

Якщо встановлено пакет poppler-utils , скрипт Nautilus нижче (розміщується у папці ~ / .gnome2 / nautilus-script як виконуваний файл) допоможе перетворити PDF-файл у HTML (опцію "-i" можна видалити, щоб включити зображення), які потім можна відкрити за допомогою LibreOffice Writer і зберегти як ODT, хоча успіх перетворення форматування дуже залежить від того, як створюється PDF.

http://ubuntuone.com/6xI1afyu6QdQvgdCGn0kym


Дякую за цей корисний сценарій. Лише невелике зауваження (від man pdftohtml): -noframes : generate no frames. Not supported in complex output mode.Тому -noframesне буде мати жодного ефекту із -cнабором.
Glutanimate

2
Дякую, я тепер видалив цей зайвий варіант зі свого сценарію. Сценарій баш-базування, спрямований на бажання, щоб забезпечити гуї для всіх цих варіантів, було б дуже приємно, здається ;-)
Саді

#MHC, здається, ця інформація неправильна; якщо ми не включаємо -noframes, ми отримуємо окремі HTML-файли для PDF-сторінок; тому я знову вставив його до свого сценарію.
Саді

Це дивно. Має бути помилка в документації тоді. Я відповідно зміню свою копію сценарію. Дякую за голову вгору!
Glutanimate

3

Спробуйте Калібр. Він перетворюється в HTML, а потім в інші формати. Це зробило досить гарну роботу у великому (183 сторінки) файлі, який я б інакше мав надрукувати

У моєму випадку я перетворив його на epub, але для задоволення просто перетворив його на .docx, який виявився дуже добре.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.