Гаразд ... Я думаю pdflatex
, що тут відсутня деталь.
ОП заявила, що вивчила poppler-utils
та pdftk
. Дозвольте додати до цього pdfimages
. Вони разом із pdflatex
шматочками розчину.
pdfimages -f 4 -l 20 -j -png target.pdf imageroot
У наведеному вище прикладі код pdfimages
розглядає сторінки з 4 по 20 target.pdf
та витягує всі зображення у файли, на яких починаються імена imageroot
.
poppler-utils
забезпечує pdftotext
. Я рекомендую -layout
варіант, який виконує велику роботу, зберігаючи документ читабельним.
pdftotext -layout $1.pdf $1.txt
Заперечення ОП проти imagemagick
рішення, запропонованого підозавром, полягає в тому, що на зображенні немає тексту, який можна витягнути . З утилітами, які я окреслив, ОП тепер матиме всі зображення, а також увесь витягнутий текст, а номери сторінок і вміст зберігаються -layout
опцією. ОП може визначити правильну сторінку тексту та вписати її у .tex
файл, який закінчується %includegraphics
директивою та посилається на зображення заміни за назвою файлу. Потім ви pdflatex
це і закінчуєте новим односторінковим .pdf, який потрібно вставити в решту документа pdftk
. Якщо ви знали, де в тексті оригінальної сторінки %includegraphics [h]
розміщувалося зображення, ви можете отримати зображення саме в потрібному місці.