Яка історія за сюжетом про дескриптор SIFT?


9

Далі - з паперу Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).

Одним із очевидних підходів було б вибірка локальної інтенсивності зображення навколо ключової точки у відповідному масштабі та їх узгодження за допомогою нормованої міри кореляції. Однак, просте співвідношення виправлень зображень дуже чутливе до змін, що викликають неправильну реєстрацію зразків, наприклад, після зміни африканської або тривимірної точки зору або нежорстких деформацій. Кращий підхід продемонстровано Едельманом, Інтратором та Поджіо (1997). Їх запропоноване представлення базувалося на моделі біологічного зору, зокрема складних нейронів у первинній зоровій корі.Ці складні нейрони реагують на градієнт при певній орієнтації та просторовій частоті, але розташування градієнта на сітківці дозволяється переміщуватися на невелике сприйнятливе поле, а не точно локалізуватися. Едельман та ін. висунув гіпотезу, що функція цих складних нейронів полягала в тому, щоб забезпечувати узгодження і розпізнавання 3D-об'єктів з різних точок зору.

Я намагаюся зрозуміти дескриптор SIFT. Я розумію попередній етап (детектор ключових точок).

Я не знаю, чому це реалізується саме так. Я хочу знати історію, що стоїть за історією.

Відповіді:


1

Дескриптор, отриманий з точки зору інтересів у за отриманою шкалою.64×64

Він розділить цю область на патчів, що призведе до 16 патчів.64×6416×16

Для кожного виправлення ми обчислюємо градієнти, а потім знаходимо домінуючий напрям градієнтів (який має деякі деталі), потім, приймаючи домінуючий напрямок як опорний напрямок, ми поділимо 360 градусів на 8 кутових областей, кожен має 45 градусів, а потім підсумовуємо значення величина кожного градієнта, що лежить у кожній кутовій області.

Ми можемо розглянути це як розподіл або 8-бінну гістограму градієнтного напрямку (враховуючи, що сильні градієнти мають більше інформації, ми повинні використовувати їх з більшою вагою для розрахунку розподілу, тому ми використовуємо їх величину як їх вагу, що призводить до суми над їх величиною). Тоді ми нормалізуємо ці гістограми.

В кінці кожного виправлення ми маємо 8-бінну гістограму і маємо 16 патчів, що призводить до дескриптора 128 номерів.

Знаходячи домінуючий напрямок, наш дескриптор також стає інваріантним обертанням. Використовуючи градієнти, наш дескриптор стає інваріантним щодо базової освітленості та нормалізуючи отримані гістограми, наш дескриптор стає інваріантним для контрасту зображення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.