Виявлення векторних важких PDF-файлів

У мене є механізм автоматичної обробки PDF. У мене є досвід роботи з різними інструментами, такими як PDF-TK, Ghostscript, PyPDF та PDFMiner, але ця проблема мене обтяжує.

Я використовую Ghostscript для оптимізації файлів PDF. Це працює досі без проблем, він займає файли зображень у форматі PDF і знижує роздільну здатність, а розмір файлів - менший.

Моя проблема: Зараз мені доводиться обробляти надзвичайно векторний важкий PDF з градієнтами, які, хоча і оптимізовані, накопичуються в 15-20 Мб, що в моїй ситуації не прийнятно. На додаток до цього вони потребують багато процесорної сили, щоб зробити Acrobat і робити це повільно.

Чи є у вас якісь пропозиції щодо боротьби з цим? Я думав рахувати інші форми, ніж текст (але як не знаю). На підставі цієї інформації я міг би раструвати весь PDF, а ще краще раструвати все, крім тексту.

Будь-яка допомога дуже вдячна!

pdf ghostscript

— Amything
джерело