У мене є PDF-файл, що містить карти будівлі, в якій я працюю, тут:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
Оригінальні вихідні файли були втрачені, і мене попросили витягнути карти карти, бажано, без тексту та піктограм, які були накладені поверх них. Це виявилося прикро складно.
Поки я спробував такі програми GUI:
- Adobe Reader: дозволяє мені вибирати текст, але не фонові зображення
- FoxIt PDF Viewer: дозволяє мені вибирати текст, але не фонові зображення
- XPDF на Ubuntu 10.10: дозволяє вибирати текст, але не фонові зображення
А також наступні програми командного рядка:
- pdfimages: витягує піктограми, що вказують на ванні кімнати просто добре, але не фонові зображення
- pdftohtml: те саме, що і pdfimages, плюс він робить погано розмічений HTML-документ
- pdfextract: те саме, що і pdfimages
- конвертувати: успішно збережені зображення, але із текстом, записаним у них
Я навіть намагався відкрити PDF вручну в текстовому редакторі та витягнути об’єкти потоку, вставивши їх у новий файл та збереживши його з розширенням .jpg, .png або .bmp (кожен по черзі). З огляду на те, як мало я знаю про внутрішню структуру файлів PDF, не дивно, що це не спрацювало.
Отже ... чи я можу отримати зображення карти з цієї речі, не отримуючи також текст та піктограми?
qpdf
для перетворення бінарних частин в ASCII наскільки це можливо. (2) Використовуйте текстовий редактор, щоб зробити весь текст невидимим, який я не хочу бачити на екрані або в роздруківках (це можна досягти легко і без пошкодження таблиці XRef шляхом переміщення невидимого прапора). (3) Повторно перегоріть результат за допомогою Ghostscript, щоб максимально зменшити його розмір. - На жаль, ваш файл більше не можна завантажити, щоб продемонструвати процедуру ...