Чому різниця гассіанського масштабу в космічній шкалі інваріантна?


15

Я буду використовувати в якості прикладу алгоритм перетворення масштабних інваріантних функцій . SIFT створює масштабний простір на основі масштабованої гауссової фільтрації зображення, а потім обчислює різницю гауссов для виявлення потенційних точок інтересу. Ці точки визначаються як локальні мінімуми та максимуми через різницю гауссів.

Стверджується, що цей підхід є інваріантним за масштабами (серед інших дивовижних інваріацій). Чому це? Мені незрозуміло, чому це так.


Не знаєте, що таке SIFT, знайшли це на wiki en.wikipedia.org/wiki/Scale-invariant_feature_transform . "Метод Лоу для створення функцій зображення перетворює зображення у велику колекцію функціональних векторів, кожен з яких є інваріантним для перекладу зображення, масштабування та обертання, частково інваріантним для змін освітлення та стійким до локальних геометричних спотворень." Це пояснення?
niaren

Так, саме про це я говорю
вода

SIFT використовує теорію масштабу-простору. Однак я не розумію, що означає "масштабна" інваріантність у цій теорії. Ви можете спробувати прочитати статті Тоні Ліндеберга про це: csc.kth.se/~tony/earlyvision.html
maximus

Відповіді:


7

Термін "інваріант масштабу" означає тут наступне. Скажімо, у вас є зображення I , і ви виявили особливість (також точку інтересу) f в якомусь місці (x, y) та на деякому рівні масштабу s . Тепер скажімо, що у вас є зображення I ' , яке є масштабованою версією I (наприклад, зменшеною вибіркою). Тоді, якщо ваш детектор функцій є інваріантним за шкалою, ви повинні мати можливість виявити відповідну функцію f ' в I' у відповідному місці (x ', y') та відповідній шкалі s ' , де (x, y, s) і (x ', y', s ') пов'язані відповідною трансформацією масштабування.

Іншими словами, якщо ваш детектор інваріантних масштабів виявив точку функції, яка відповідає чиємусь обличчю, а потім ви збільшуєте або зменшуєте камеру на одній сцені, ви все одно повинні виявити точку функції на цьому обличчі.

Звичайно, ви також хочете "дескриптор функції", який би дозволив вам співставити дві функції, саме це дає вам SIFT.

Отож, ризикуючи вас заплутати далі, тут є дві речі, які не змінюють масштаб. Один з них - детектор точок інтересу DoG, який є інваріантним за масштабами, оскільки він виявляє особливості типу зображень (крапель) незалежно від їх масштабу. Іншими словами, детектор DoG виявляє краплі будь-якого розміру. Інша інваріантність масштабу - це дескриптор ознак, який є гістограмою градієнтної орієнтації, яка залишається більш-менш схожою для тієї ж характеристики зображення, незважаючи на зміну масштабу.

До речі, різниця гауссів використовується тут як наближення до фільтра Лаплаціана Гаусса.


Ви взяли деяку інформацію з теорії масштабу-простору. Чи можете ви, будь ласка, описати пояснення того, що саме відбувається у порівнянні двох сигналів за допомогою теорії масштабу-простору? Ліндеберг у своїх роботах: csc.kth.se/~tony/earlyvision.html зробив декілька прикладів виявлення крапок і т. Д. Як насправді взяття похідної за параметром масштабу допомагає в інваріантності масштабу?
maximus

Ви праві. Я просто намагався описати інтуїцію за теорією масштабу-простору. Що ви задаєте, має бути окремим питанням. :) Я думаю, що ви говорите про те, що похідні, прийняті в різних масштабах, повинні нормально нормалізуватися. Коли ви переходите до більш масштабних масштабів, сигнал згладжується, тому його амплітуда зменшується. Це означає, що величина похідних також зменшується. Таким чином, для порівняння похідної відповіді за масштабами потрібно помножити їх на
Діма

відповідна сила сигми: перша похідна від сигми, друга - за сигмою ^ 2 та ін.
Діма

@maximus, ой, я запорожую @. :)
Діма

Дякую за вашу відповідь! Це мені допомогло, але є ще деякі питання, які я задав як інше питання тут: dsp.stackexchange.com/questions/570/…
maximus

5

Різниця гауссів не є інваріантною за масштабами. SIFT (до обмеженого ступеня) масштаб інваріантний, оскільки він шукає екстремуму DoG у масштабі простору - тобто знаходить масштаб з екстремальним DoG як просторово, так і відносно сусідніх масштабів. Оскільки вихідний DoG виходить для цієї фіксованої шкали (що не є функцією вхідної шкали), результат не залежить від масштабу, тобто є інваріантним за шкалою.


1
Правильно. Але він шукає лише екстремуму в сусідніх масштабах. Це не всі масштаби, якщо я не помиляюся. Навіть якщо це були всі масштаби, все одно не зрозуміло, наскільки це масштаб незалежний
вода

@water, саме так. Ви не хочете екстремуму в усіх масштабах, ви хочете локальну екстремуму. Це дозволяє виявляти вкладені структури, наприклад, невелике темне коло у великому яскравому колі на сірому тлі.
Діма

DoG використовується замість LoG, оскільки швидше обчислити DoG.
maximus
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.