Ну, я боровся з цим протягом багатьох тижнів, багато з цих відповідей допомогли мені пройти, але завжди чогось не вистачало, мабуть, ніхто тут ніколи не мав проблем із зображеннями, закодованими jbig2 .
У наборі PDF-файлів, який я маю сканувати, зображення, закодовані у jbig2, дуже популярні.
Наскільки я розумію, існує безліч копіювальних / скануючих машин, які сканують папери та перетворюють їх у файли PDF, повні зображень, кодованих jbig2.
Тож після багатьох днів тестів вирішив піти на відповідь, запропоновану тут давно dkagedal.
Ось мій крок за кроком на Linux: (якщо у вас інша ОС, я пропоную використовувати докер Linux це буде набагато простіше.)
Перший крок:
apt-get install poppler-utils
Тоді я зміг запустити інструмент командного рядка, який називається pdfimages, таким чином:
pdfimages -all myfile.pdf ./images_found/
За допомогою вищезазначеної команди ви зможете витягти всі містяться зображення в myfile.pdf, і збережете їх у images_found (перед цим потрібно створити images_found)
У списку ви знайдете кілька типів зображень, png, jpg, tiff; все це легко читати за допомогою будь-якого графічного інструменту.
Тоді у вас буде кілька файлів з іменами: -145.jb2e та -145.jb2g.
Ці 2 файли містять ОДИН ЗОБРАЖЕННЯ, закодований у jbig2, збережений у 2 різних файлах - одному для заголовка та одному для даних
Я знову втратив багато днів, намагаючись дізнатись, як перетворити ці файли на щось читабельне, і нарешті я натрапив на цей інструмент під назвою jbig2dec
Отже, спочатку потрібно встановити цей чарівний інструмент:
apt-get install jbig2dec
тоді ви можете запустити:
jbig2dec -t png -145.jb2g -145.jb2e
Ви нарешті зможете перетворити всі витягнуті зображення на щось корисне.
Щасти!