Сенс цієї формули дійсно досить простий. Уявіть, що ви берете дві однакові за розміром невеликі області зображення, синю та червону:
Функція вікна дорівнює 0 поза червоним прямокутником (для простоти можна вважати, що вікно просто постійне всередині червоного прямокутника). Таким чином, функція вікна вибирає, які пікселі ви хочете подивитися, і присвоює відносні ваги кожному пікселю. (Найчастіше це вікно Гаусса, оскільки воно обертально симетричне, ефективне для обчислення та підкреслення пікселів поблизу центру вікна.) Синій прямокутник зміщується на (u, v).
Далі ви обчислюєте суму різниці у квадраті між частинами зображення, позначеними червоним та синім кольором, тобто ви віднімаєте їх піксель за пікселем, розподіляєте різницю та підсумовуєте результат (припускаючи, що для простоти вікно = 1 в області, яку ми шукаємо у). Це дає вам одне число для кожного можливого (u, v) -> E (u, v).
Давайте подивимося, що станеться, якщо обчислимо це для різних значень u / v:
Спочатку збережіть v = 0:
Це не повинно дивуватись: різниця між частинами зображення є найменшою, коли зміщення (u, v) між ними дорівнює 0. Зі збільшенням відстані між двома патчами також збільшується сума квадратичних різниць.
Зберігаючи u = 0:
Діаграма виглядає аналогічно, але сума квадратних відмінностей між двома частинами зображення набагато менша, коли ви зміщуєте синій прямокутник у напрямку до краю.
Повний сюжет E (u, v) виглядає так:
Сюжет трохи схожий на "каньйон": Є лише невелика різниця, якщо ви змістите зображення в бік каньйону. Це тому, що цей патч зображення має домінуючу (вертикальну) орієнтацію.
Ми можемо зробити те ж саме для іншого виправлення зображення:
Тут графік E (u, v) виглядає інакше:
Незалежно від того, яким способом ви зміните патч, він завжди виглядає інакше.
Тож форма функції E (u, v) щось говорить про патч зображення
- якщо E (u, v) скрізь біля 0, у патчі зображень немає текстури, яку ви дивитесь
- якщо E (u, v) має форму "каньйон", патч має домінуючу орієнтацію (це може бути край або текстура)
- якщо E (u, v) має "конусоподібну форму", пластир має текстуру, але не має домінуючої орієнтації. Саме такий патч шукає кутовий детектор.
Багато посилань кажуть, що це величина, на яку вікно 'змістилося' ... так на скільки зміщене вікно? Один піксель ... два пікселі?
Зазвичай ви взагалі не обчислюєте E (u, v). Вас цікавить лише його форма в околиці (u, v) = (0,0). Отже, ви просто хочете розширення Тейлора E (u, v) поблизу (0,0), що повністю описує його "форму".
Чи підсумовується підсумок по позиціях пікселів, що перебуває у вікні?
Математично кажучи, більш елегантно дозволити підсумовувати діапазон у всіх пікселях. Практично кажучи, немає сенсу підсумовувати пікселі, де вікно 0.