Як порівняти вміст .pdf-файлів, за винятком назв файлів порівняння?


2

Зазвичай я використовую WinMerge для перегляду відмінностей між файлами, але в цьому випадку це не допомагає. Як відомо, файли, які я порівнюють, мають різні назви файлів, які створюють помилкові спрацьовування, коли 2 файли з одним і тим же документом мають різні назви файлів.

У мене є папка з багатьма каталогами, в яких відображаються всі постачальники, з якими працює моя компанія, і вони містять багато файлів .pdf з квитанцій & amp; рахунків-фактур. Це головний список постачальників. Рахунки-фактури & amp; квитанції називаються так, що імена не мають сенсу, якщо навколишня структура каталогів не надає контексту. Наприклад, у нас є "Постачальники / Компанія Foo / Product Bar / Invoice # 3.pdf"

Потім я маю іншу папку з багатьма квитанціями & amp; рахунків-фактур у ньому, які використовувалися окремо від головного списку постачальників, і повинні містити копію кожного квитанції та підпису вручну рахунок-фактуру, введений у відповідний запис у структурі каталогів основного постачальника. Ці надходження & amp; рахунки-фактури повинні були бути перейменовані, тому бухгалтерові буде легше читати & amp; знати, на що вони посилаються. Наприклад, у нас є "Taxes / CompanyFoo ProductBar.pdf".

Я шукав файли типу .pdf у папці верхнього рівня головного списку постачальників, щоб результати пошуку включали квитанції & amp; рахунки-фактури від усіх постачальників у структурі каталогів. Потім я скопіював ці .pdf файли в іншу папку на робочому столі, щоб порівняти їх. Я порівнював ці файли з файлами в папці «податки», використовуючи WinMerge, щоб побачити, чи не існує жодного з файлів у папці «податки» у каталогах «основних постачальників», і навпаки.

Але WinMerge вважає файли різними лише тому, що їхні файли не збігаються. Мені потрібно знати, чи є вміст файлу іншим, незважаючи на те, що це ім'я файлу.

Існує сотні файлів & amp; якщо такі знаходяться в папці "податки", які не знаходяться у відповідному каталозі "master vendor", мені потрібно виправити цей параметр & amp; подайте їх правильно.

Чи може хтось порекомендувати інструмент, який може це зробити?


1
Чому ви не використовуєте md5sum рекурсивно? Два PDF-файли з однаковою контрольною сумою та однаковим розміром файлу мають надзвичайно низький шанс бути різними.
Benoit


Я знайшов щось у цій темі, яка робить те, що мені потрібно, насправді відповідь на цю тему, що це було. Завдяки Даніелю Бек! Але я не знаю, як це зробити.
cdvonstinkpot

Відповіді:


2

Я думаю, що i-net PDF-засіб порівняння було б корисно.

В даний час у версії 2.0 пропонується графічний інтерфейс і гнучкі опції ціноутворення. Існує ще безкоштовна 30-денна пробна версія, де можна перевірити кожен аспект програмного забезпечення.

Comparison Result


1
Подивився, що вміє, поки не побачив ціну: 1295 доларів. І умови безкоштовного судового розгляду роблять його непридатним, оскільки я не розробник.
cdvonstinkpot

1

Якщо у вас є якісь середовища UNIX (якщо ви працюєте у Windows, я пропоную Cygwin ) Ви можете легко знайти дубльовані файли під поточним каталогом таким чином:

find . -type f -exec md5sum '{}' '+' | sort | uniq -D -w 32

Вихідні дані будуть md5sum і ім'ям кожного файлу, який має принаймні один дублікат (той же md5sum). Дублікати відображаються один за одним в алфавітному порядку. Обмін . після find з шляху, за яким ви хочете шукати, якщо це не поточний каталог.

Редагувати:

І навпаки, щоб отримати файли, які не мають дублікатів, можна використовувати

find . -type f -exec md5sum '{}' '+' | sort | uniq -u -w 32

Це буде тільки друкувати файли без будь-яких дублікатів нижче поточного каталогу.


0
  1. Ви можете (повинні, дійсно) використовувати xdocdiff плагін для WinMerge, якщо порівняти вміст очима
  2. ПорівнятиВін! може надавати (так собі) і візуалізувати у порівнянні вікна pdf-файлів без додаткових плагінів
  3. DiffPDF порівнювати і показувати порівняні файли ще краще (див. скріншот на сторінці), перехресну платформу

Як альтернативне рішення можна подумати про збереження звичайних копій кожного PDF-файлу під тим же ім'ям (перетворені з, f.e, pandoc) і порівняти текстові версії лише з будь-яким інструментом



Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.