У мене є маса файлів у форматі PDF - це статті, завантажені з різних веб-сайтів журналу. Проблема полягає в тому, що деякі з цих файлів PDF - це дублікати один одного. Однак якщо я запускаю основний пошук дублікатів файлів, вони не з’являться, оскільки журнали мають (дещо дратівливу) звичку розміщувати титульну сторінку в PDF перед фактичною статтею. Іншими словами, якщо у мене є дві копії статті "X" автора Y, одна завантажена з сайту A, а інша веб-сайт B, вони не є точними дублікатами, оскільки одна має титульну сторінку від A, а друга має (різну) обкладинку сторінка від B. Отже, моє запитання:
Чи можна перевірити, чи є два дублікати файлів PDF, ігноруючи першу сторінку ?
Звичайно, це не вирішує всіх моїх проблем, оскільки деякі веб-сайти журналів не містять титульної сторінки! Тож найкращим можливим питанням було б:
Чи можна перевірити, чи є два файли PDF - копіями, де один (або обидва) можуть мати титульну сторінку ?