Далі - з паперу Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).
Одним із очевидних підходів було б вибірка локальної інтенсивності зображення навколо ключової точки у відповідному масштабі та їх узгодження за допомогою нормованої міри кореляції. Однак, просте співвідношення виправлень зображень дуже чутливе до змін, що викликають неправильну реєстрацію зразків, наприклад, після зміни африканської або тривимірної точки зору або нежорстких деформацій. Кращий підхід продемонстровано Едельманом, Інтратором та Поджіо (1997). Їх запропоноване представлення базувалося на моделі біологічного зору, зокрема складних нейронів у первинній зоровій корі.Ці складні нейрони реагують на градієнт при певній орієнтації та просторовій частоті, але розташування градієнта на сітківці дозволяється переміщуватися на невелике сприйнятливе поле, а не точно локалізуватися. Едельман та ін. висунув гіпотезу, що функція цих складних нейронів полягала в тому, щоб забезпечувати узгодження і розпізнавання 3D-об'єктів з різних точок зору.
Я намагаюся зрозуміти дескриптор SIFT. Я розумію попередній етап (детектор ключових точок).
Я не знаю, чому це реалізується саме так. Я хочу знати історію, що стоїть за історією.