У мене понад 10000 зображень, приблизно 2000 - це дублікати в інших форматах (як у JPEG, PNG, GIF). Обидва ці числа з кожним днем збільшуються. Мені потрібно видалити ці дублікати, і для цього я повинен знати, як їх спочатку знайти.
Першою моєю думкою було перевірити пікселі зображень та знайти інші зображення, які мають однакові кольорові пікселі в однакових координатах. Але цей варіант не завжди працює. Скажімо, я шукаю дублікат. Щодо об’єкта пошуку, я вибираю 8-бітний файл PNG. У ньому знайдуться всі дублікати цього зображення, але лише 8-бітний PNG, іноді 8-бітовий GIF та рідко JPEG (через алгоритмічний образ зображень, я думаю?).
Друга моя думка полягала в тому, щоб скопіювати всі ці зображення та перефарбувати їх у сувору двоколірну палітру (скажімо, чорно-білу) та виконати те саме сканування, як зазначено вище. Але знову ж JPEG-зображення не на 100% схоже на формат PNG або GIF (та сама причина, що і вище?).
Третя думка полягала в тому, щоб зменшити відсоток на те, наскільки потрібно ознайомити зображення, і збільшити, наскільки кольори можуть змінюватись, що призводить до небажаного видалення зображення ...
Будь-які думки?