Ось один із способів, який потребує деяких не настільки поширених інструментів:
- ocrodjvu
- pdfbeads , що має власні вимоги, які може знайти Google
Ми можемо використовувати djvu2hocr
команду (з ocrodjvu
пакета) для вилучення прихованого текстового шару з файлу DjVu (він не робить жодного OCR або подібного, він просто витягує текстовий шар з геометрією), тобто:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
інтервенція виправляє назви класів у вихідному hOCR (це просто простий HTML-файл)
Тепер ми витягуємо сторінку DjVu у формат TIFF за допомогою:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
щоб ми закінчили цей файл у робочій папці:
sample.djvu
pg10.html
pg10.tif
Ось тут і pdfbeads
грає, і ми просто виконуємо:
pdfbeads -o pg10.pdf
тоді ця витончена програма піклується про все, що знаходиться в цій папці (файли HTML і TIFF з однаковою базовою назвою) та виробляє вихідний PDF-файл із деякими побічними продуктами:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
який ідентичний вхідному файлу DjVu і має текстовий шар всередині:
Підсумок коментарів:
Подальші коментарі нижче обговорюють представлення менших зображень зі сторінки документа DjVu як окремих об'єктів, що не представляється можливим, оскільки сторінка документа DjVu - це лише одне зображення з необов'язковим текстовим шаром, без «інформації» про менші зображення як окремі об’єкти. Якщо документ DjVu має кольорові зображення, вони зазвичай розміщуються на фоновому шарі; у цьому випадку користувач може скористатися такими інструментами, як ddjvu
(витягнути лише фоновий шар) та imagemagick
(автоматично обрізати) для виведення лише зображень замість цілого полотна, але це не може бути автоматизовано для створення вихідних даних у форматі PDF
Ще один більш безпечний, але повільний підхід - це використання звичайних інструментів графічного інтерфейсу OCR. gscan2pdf
(> 1.0) пропонується як можливий кандидат в Linux PC