Зіткнулися з тією ж проблемою і прийшли до наступного рішення. Я не потрапив у документацію про побудову файлів pdf, я просто порівняв два порожні файли pdf різного розміру сторінки.
Схоже, у pdfs є всілякі атрибути, вбудовані між "<<" та ">>". Я виявив, що інформація про розмір сторінки міститься у простому тексті, і її можна знайти за допомогою простого пошуку в регулярних виразах.
Це може бути, але не може бути правдою для всіх pdfs, але він працював над усім, що я міг знайти з різних джерел.
Відповідна частина може виглядати як будь-яка з них для сторінки формату A4:
/MediaBox [0 0 595 842]
/MediaBox[0 0 595 842]
/MediaBox[ 0 0 595.32 841.92]
Це означає [0 0 висота ширини], тож ось мій супер кульг, але робоче рішення для отримання цього:
cat test.pdf | egrep -ao "/MediaBox ?\[ ?[0-9]+ [0-9]+ [0-9]+(\.[0-9]+)? [0-9]+(\.[0-9]+)?\]" | head -1
Просто змініть test.pdf у свій файл.