Що призводить до збільшення розміру файлу PDF при збереженні в Preview?


17

Здається, що внесення змін, приміток або навіть просто відкриття та збереження PDF-файлу в режимі попереднього перегляду призведе до значного збільшення розміру файлу. Я помітив, що для деяких сканованих книжок це також покращує час надання сторінки.

Чи може хтось пролити трохи світла на те, що відбувається, щоб викликати ці зміни? Мені цікаво синхронізувати анотації електронних книг PDF між Preview та iPad (можливо, GoodReader), але це може бути занадто недоцільно для великих PDF-файлів.


2
Ймовірно, це пов'язано з тим, як вони вирішили кодувати PDF-файли в попередньому перегляді. PDF-файли тепер є відкритим форматом, але це не обов'язково означає, що всі кодують їх однаково. Ваша найбезпечніша ставка - отримати редактор Adobe PDF і використовувати його. За словами цих людей, дискусії.apple.com/ thread/3896311?start=0& tstart=0 , це має значення. Вони також обговорюють можливу причину вашого питання.
Тоні

Відповіді:


12

У своєму маловідомому романі, PDF Karenina , Лев Толстой писав:

Оптимально закодовані файли PDF однакові; кожен суб-оптимально закодований PDF-файл суб-оптимально закодований по-своєму.

Кому важко відповісти, чому ваші PDF-файли збільшуються після зміни попереднього перегляду. PDF-файл складається з безлічі різних типів даних: зображення, потоки вмісту, шрифти, накладні документи, кольорові простори, розширені графічні стану та перехресна таблиця. Так само, як одне речення може бути стислим, а інше багатослівним, але обидва є дійсними англійською мовою і говорять одне і те ж, так і один PDF-файл може мати більш багатослівний спосіб подання того ж вмісту, що і більш стислий PDF-файл. Ми повинні переглянути ваші точні файли PDF. Цілком ймовірно, що вони були створені за допомогою різноманітних програм, деякі з них, а з іншого боку.

Також важливо, яку версію Mac OS X та Preview ви використовуєте, оскільки це визначає програмне забезпечення, яке записує новий файл PDF, коли ви робите Save As in Preview.

Я можу, однак, сказати вам, що збільшується в деяких моїх PDF-файлах. Ця історія стосується мого комп'ютера, на базі Mac OS X 10.5.8 та Apple Preview 4.2 (469.5).

Один файл,, Giulio.pdfявляє собою 22-сторінковий документ із текстом у вигляді тексту, а не відсканованих зображень. Це 461 092 байт. Я відкрив його в Preview, зробив файл ... Save As ... і зберег під новим ім'ям файлу. Новий файл на 724,421 байт, або на 57% більший.

Я відкривав кожен файл за допомогою Adobe Acrobat Professional, версія 8.3.1 для Mac OS. Я зробив Advanced ... PDF Optimizer ... Аудит Space Usage ... . Невелике діалогове вікно дало підсумок, скільки байтів було обумовлено кожною категорією використання, плюс відсоток від загального розміру файлу для категорії.

Оригінальний Giulio.pdf є 390,754 байти (84,75%), присвячені потокам вмісту, і нульові байти, присвячені зображенням. Він у форматі PDF 1.4. Файл, збережений за допомогою попереднього перегляду, має 675,846 байт (93,29%), присвячений потокам вмісту, також нульовим байтом зображень і знаходиться у форматі PDF 1.3. Попередній перегляд збільшив потоки вмісту на 285 092 байти, і це становить 73% різниці розмірів файлів між ними.

Мені було цікаво, чи формат файлу PDF 1.3 за своєю суттю менш ефективний для зберігання такого типу файлів. Я відкрив оригінал Giulio.pdfв Adobe Acrobat Professional 8, і зробив Advanced ... PDF Optimizer ... Зробіть сумісний з: Acrobat 3.0 і пізніших версій і натиснув OK. Я зберег отриманий файл під новим іменем. Отриманий файл знаходиться у форматі PDF 1.3 і був 452 356 байт або менше, ніж оригінал. Його потоки вмісту - 375,171 байт (82,94%), аналогічна частка, але менша, ніж потоки вмісту вихідного файлу.

Таким чином, здається, ми можемо зробити висновок, що програма «Попередній перегляд» на Mac OS X 10.5.8 не настільки ефективна, як деякі інші творці PDF для створення стислих потоків вмісту у файлах PDF, і різниці достатньо, щоб враховувати три чверті різниці розмірів у PDF-файлі без зображень.

Я зробив подібний експеримент на form k.pdf , 1-сторінковий документ, відсканований з паперу. Оригінальний файл - 303 730 байт, з яких 298,197 байт (98,18%) - зображення. Копія цього файлу, створеного за допомогою попереднього перегляду за допомогою Save As ..., становить 300 601 байт або на 1% менше. Ця різниця у розмірі файлу більше, ніж припадає на меншу категорію байтів "накладні витрати документа" у файлі, створеному за допомогою попереднього перегляду.

Таким чином, здається, ми також можемо зробити висновок, що попередній перегляд не завжди призводить до збільшення розміру файлу PDF. Це залежить від характеру оригінального PDF-файлу та того, наскільки лаконічно було почати.


3

Я знаю, що це досить пізно, але я виявив щось, що, здається, працює, принаймні, якщо воно використовується спочатку: Я спробував використовувати фільтр кварцу для "Зменшення розміру файлу". Здається, працює, але за замовчуванням не працює. Я можу вибирати його спеціально за допомогою меню "Зберегти як" (утримуйте "Опція"), але переживаю, що він за замовчуванням застосовується до звичайного методу для автоматичного збереження.

Ось що відбувається у мене і як я потрапив на цю сторінку в першу чергу: PDF-лист починається як книга на 900 сторінок у 900 МБ. Я додаю одне примітку і зберігаю його, і файл підскакує до 2,29 Гб. Щоб завершити це, потрібно назавжди заощадити, тим більше що я економляю на зовнішньому диску. Слава богу, накопичувач USB 3!

Чи можна витягнути ці примітки? Я можу коментувати та виділяти на Goodreader та PDF Expert на своєму iPad. Якщо попередній перегляд не може дозволити мені це зробити на своєму комп’ютері, чи є інша програма, яка буде? Чому він не може просто зберегти анотації / основні моменти, але не спробувати повторно видавити всі зображення, як я щоразу зберігаю JPEG. Дякую за допомогу!


Це працює: 400 KiB> 1,3 MiB> 540 KiB. У моєму оригінальному PDF-файлі було менше 400 Кб і стало жахливим 1,3 МіБ після додавання пари виділень / підкреслень. Я зробив, як було запропоновано, і файл знизився до 540 KiB: Зберегти як ... за допомогою кварцового фільтра, встановленого для зменшення розміру файлу . Я все ще можу редагувати попередні основні моменти (що стає неможливим при експортуванні в PDF ... ), і розмір більше відповідає тому, що я отримую, редагуючи його на іншому пристрої.
Даніель

1

Проблема залишається серйозною. У Preview 7.0 (Mac Os 10.9.5.) Я створив pdf за допомогою Acrobat 9.5.5. що призвело до файлу 5 Мб. У Preview я додав рівно 12 символів (за допомогою інструментів редагування). Після збереження цього файлу він вичерпується до 14 Мб.

Ви можете виправити це, відкривши та зберігаючи знову в Acrobat (можливо, доведеться скористатися опцією "зменшити розмір файлу").


2
Це не пояснює, чому це відбувається, саме про це і задається питання.
Ян Ч.

0

Неможливо додати підказки до рішення. Я можу додати аналогічний сценарій (OS X 10.11.3): відсканований pdf вагою в ~ 800 кб відкривається в попередньому перегляді, пара порожніх відсканованих сторінок видаляється, в результаті чого, двосторінковий коротший pdf - ~ 2,2 Мб. "Опція - Зберегти як" та вибравши кварцовий фільтр "зменшити розмір файлу" стискає файл до ... 1,9 Мб.

Оригінальний файл був сформований копіювальним апаратом Xerox WC 7830, який, за моїм досвідом (порівняно з попередніми багатофункціональними принтерами / копіювальними машинами, які ми мали), дає досить добре оптимізований відсканований PDF-файл.

Неможливо побачити різницю у файлі візуально; Я б здогадувався, що зображення сторінки рекомпресуються у 24bpp, тоді як оригінальний файл є чітким, використовуючи набагато меншу глибину кольорів, ймовірно, 6-бітну (це друкований та підписаний документ, лише текст, сканер робить гарну роботу з збереження білий фон чисто білий). На жаль, попередній перегляд недостатньо розумний, щоб виявити та підтримувати це, і, здається, потрібно повторно видавити весь файл, хоча на інших сторінках жодних змін не було внесено (знову ж таки, видалено лише пару сторінок.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.