Гаразд ... Я думаю pdflatex, що тут відсутня деталь.
ОП заявила, що вивчила poppler-utilsта pdftk. Дозвольте додати до цього pdfimages. Вони разом із pdflatexшматочками розчину.
pdfimages -f 4 -l 20 -j -png target.pdf imageroot
У наведеному вище прикладі код pdfimages розглядає сторінки з 4 по 20 target.pdfта витягує всі зображення у файли, на яких починаються імена imageroot.
poppler-utilsзабезпечує pdftotext. Я рекомендую -layoutваріант, який виконує велику роботу, зберігаючи документ читабельним.
pdftotext -layout $1.pdf $1.txt
Заперечення ОП проти imagemagickрішення, запропонованого підозавром, полягає в тому, що на зображенні немає тексту, який можна витягнути . З утилітами, які я окреслив, ОП тепер матиме всі зображення, а також увесь витягнутий текст, а номери сторінок і вміст зберігаються -layoutопцією. ОП може визначити правильну сторінку тексту та вписати її у .texфайл, який закінчується %includegraphicsдирективою та посилається на зображення заміни за назвою файлу. Потім ви pdflatexце і закінчуєте новим односторінковим .pdf, який потрібно вставити в решту документа pdftk. Якщо ви знали, де в тексті оригінальної сторінки %includegraphics [h]розміщувалося зображення, ви можете отримати зображення саме в потрібному місці.