Перетворення DJVU в PDF

40

Я хочу перетворити документ DJVU у документ PDF, відокремлюючи та зберігаючи текстовий шар та зображення , зберігаючи також структуру від DJVU. Як я можу це зробити в Ubuntu?

(Тоді я буду використовувати Caliber для конвертації в ePub / Mobi, тож якщо для всього цього процесу був би плагін Caliber, який був би ідеальним для мене!)

Примітка1: Друк з Evince, експорт з DJview або будь-якого іншого, що використовує пакет ddjvu , не є адекватними рішеннями, оскільки вони відкидають текстовий шар, зберігаючи лише зображення.

Примітка2: Використання DJVULibre, здається, витягує лише текстовий шар, а зображення не витягуються . Аналогічно, копіювання тексту "вручну" втрачає і структуру документа, і зображення.

— сіно
джерело

38

Спосіб 1

Просто використовуйте DJView та експортуйте як PDF

Goto Synaptic Package Manager
Встановіть DJview4
Запуск DJview (програми - графіка - DJView4)
Відкрийте свій .djvu документ
: Меню - Експорт як: PDF

Спосіб 2

Відкрийте файл djvu в evince
Виберіть print ----> print to file
change .ps to .pdf and click print

Спосіб 3

Goto Synaptic Package Manager
Встановити

djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3
Перейдіть на термінал і напишіть
```
 sudo apt-get install libtiff-tools
```
Перейдіть у каталог, де присутній файл djvu. Клацніть правою кнопкою миші. Перейдіть до опції "Відкрити в терміналі". Натисніть на нього. Відкриється термінал.

У цьому терміналі напишіть

ddjvu -format=tiff file_name.djvu file_name.tiff
tiff2pdf -j -o file_name.pdf file_name.tiff

Метод 4

Є також онлайн-конвертер DjVu в PDF-конвертер

— Ашу
джерело

@Ashu Ви впевнені, що це отримує фотографії?

— Гайд

Так, метод 1 і 2 справді працював для мене. не намагався 3 та .4

— Ашу

@Ashu це витяг фотографій чи просто копіювання всієї сторінки? (це має сенс?)

— гайд

Ви пробували будь-який метод? спробуйте і подивіться, чи спрацює це

— Ашу

2

Це не відбувається (витягніть зображення чи текст).

— гайд

17

Ось один із способів, який потребує деяких не настільки поширених інструментів:

ocrodjvu
pdfbeads , що має власні вимоги, які може знайти Google

Ми можемо використовувати djvu2hocrкоманду (з ocrodjvuпакета) для вилучення прихованого текстового шару з файлу DjVu (він не робить жодного OCR або подібного, він просто витягує текстовий шар з геометрією), тобто:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed інтервенція виправляє назви класів у вихідному hOCR (це просто простий HTML-файл)

Тепер ми витягуємо сторінку DjVu у формат TIFF за допомогою:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

щоб ми закінчили цей файл у робочій папці:

sample.djvu
pg10.html
pg10.tif

Ось тут і pdfbeadsграє, і ми просто виконуємо:

pdfbeads -o pg10.pdf

тоді ця витончена програма піклується про все, що знаходиться в цій папці (файли HTML і TIFF з однаковою базовою назвою) та виробляє вихідний PDF-файл із деякими побічними продуктами:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

який ідентичний вхідному файлу DjVu і має текстовий шар всередині:

введіть тут опис зображення

Підсумок коментарів:

Подальші коментарі нижче обговорюють представлення менших зображень зі сторінки документа DjVu як окремих об'єктів, що не представляється можливим, оскільки сторінка документа DjVu - це лише одне зображення з необов'язковим текстовим шаром, без «інформації» про менші зображення як окремі об’єкти. Якщо документ DjVu має кольорові зображення, вони зазвичай розміщуються на фоновому шарі; у цьому випадку користувач може скористатися такими інструментами, як ddjvu(витягнути лише фоновий шар) та imagemagick(автоматично обрізати) для виведення лише зображень замість цілого полотна, але це не може бути автоматизовано для створення вихідних даних у форматі PDF

Ще один більш безпечний, але повільний підхід - це використання звичайних інструментів графічного інтерфейсу OCR. gscan2pdf(> 1.0) пропонується як можливий кандидат в Linux PC

— зета
джерело

Чи правильно я вважаю, що це не витягує окремі дані зображення, а лише зображення всієї сторінки?

— гайд

Що ви маєте на увазі під "індивідуальними даними зображення", коли ви посилаєтесь на структуру файлів DjVu?

— зета

чи може він обрізати зображення з документа у вигляді менших зображень, розміщених вгорі PDF (наприклад, щоб вони могли експортувати в HTML)

— hayd

У структурі файлів DjVu такого визначення немає. Зверху приклад зображення в оригінальному документі DjVu "розміщується" на передньому плані / масці разом із зображенням символів і є окремий текстовий шар, який був вилучений, як пояснено. Якщо документ DjVu має кольорові зображення, вони будуть розміщені на фоновому шарі на всій сторінці (у загальному складеному файлі DjVu). Хоча зрозуміло, що ви можете очікувати, що зображення на сторінці документа DjVu є окремими об'єктами, вони не є - дивіться на сторінку документа DjVU як єдине зображення з необов'язковим текстовим шаром, це в основному це все.

— зета

1

@zetah - додаткову інформацію, яку ви вказали в коментарях, слід дійсно додати до відповіді, оскільки вона надає цінну інформацію щодо розміщення зображення в структурі та того, що ви очікували при вилученні.

— fossfreedom

4

Існує djvu2pdf, але він покладається на ghostscript, тому це може бути інший варіант друку. Я все-таки пропоную вам поглянути на той випадок, на всякий випадок, коли це розумніший, ніж я даю йому кредит.

Це не в репост, але ви можете завантажити деб з сайту розробників : http://0x2a.at/s/projects/djvu2pdf

** Введіть обов'язкове повідомлення про завантаження / встановлення речей з-за репост тут **

— Олі
джерело

1

Боюся, djvu2pdf використовує ddjvu для експорту в PDF, який експортує зображення без тексту.

— гайд

4

За допомогою DJVULibre можна витягти текстовий шар за допомогою terminalкоманди:

djvutxt myfile.djvu > myfile-ocr.txt або djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(обидва роблять те саме, і їх знайшли тут )

Форматування вимагає певних зусиль (оскільки багато символів не конвертуються належним чином), а зображення не відновлюються .

— сіно
джерело

Це добре для перетворення книг без малюнків у формат DJVU, але не для документів із зображеннями. Наразі це для мене поточне рішення, і єдине, що витягує текст. Спосіб збереження форматування та зображень буде набагато кращим!

— гайд

0

http://www.djvu-pdf.com/ - За допомогою цього веб-сайту ви можете конвертувати djvu в pdf.

— Допитливий учень
джерело

я вже розмістив цей веб-сайт бро

— Ашу,

Це здається фальшивим сайтом. Я отримую це повідомлення після конверсії: Вибачте, ви можете не завантажити цей файл.

— corev

0

Найпростіший спосіб: використовувати gscan2pdf для імпорту djvu, а потім OCR це tesseract і, нарешті, зберегти його як pdf. Текст OCR'd у форматі pdf може дещо відрізнятися від оригінального djvu, і перетворення може зайняти деякий час, але цей метод не вимагає, і він працює.

— Фазул
джерело

1

Привіт, щоб зробити це кориснішим анвером, ви могли б дати трохи детальніше про те, де отримати та використовувати gscan2pdf та tesseract.

— НГР

0

Я склав сценарій відповіді @ zetah.

Він доступний тут: https://gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b

— matthieu
джерело