Ви на правильному шляху.
Інваріантність означає, що ви можете розпізнати об’єкт як об’єкт, навіть коли його поява певним чином змінюється . Це взагалі гарна річ, оскільки вона зберігає ідентичність об'єкта, категорію (тощо) через зміни специфіки візуального введення, як-от відносні позиції глядача / камери та об'єкта.
На зображенні нижче міститься багато переглядів однієї статуї. Ви (і добре навчені нейронні мережі) можете визнати, що один і той же об’єкт з'являється на кожному зображенні, навіть якщо фактичні значення пікселів зовсім інші.
Зауважимо, що переклад тут має специфічне значення у баченні, запозиченому з геометрії. Це не стосується будь-якого типу перетворення, на відміну від, скажімо, перекладу з французької на англійський або між форматами файлів. Натомість це означає, що кожна точка / піксель на зображенні була переміщена однаковою кількістю в тому ж напрямку. Крім того, ви можете вважати, що походження було зміщене на рівну кількість у зворотному напрямку. Наприклад, ми можемо генерувати 2-е і 3-е зображення в першому рядку з першого, переміщуючи кожен піксель на 50 або 100 пікселів праворуч.
Можна показати, що оператор згортки комутується стосовно перекладу. Якщо ви згортаєте
f з
г , не має значення, перекладете ви згорнутий вихід
f∗ g , або спочатку перекладете
f або
г , а потім згорніть їх. У Вікіпедії є
трохи більше .
Один із підходів до перекладно-інваріантного розпізнавання об'єктів - це взяти "шаблон" об'єкта і перетворити його з кожним можливим розташуванням об'єкта на зображенні. Якщо ви отримаєте велику відповідь у місці, це говорить про те, що об’єкт, що нагадує шаблон, розташований у цьому місці. Такий підхід часто називають узгодженням шаблонів .
Інваріантність проти еквівалентності
Відповідь Santanu_Pattanayak ( тут ) вказує, що існує різниця між інваріантністю перекладу та еквівалентністю перекладу . Інваріантність перекладу означає, що система виробляє точно таку ж відповідь, незалежно від того, як зміщується її вхід. Наприклад, детектор обличчя може повідомити "ЗНАЙДЕННЯ ЛИЦІ" для всіх трьох зображень у верхньому рядку. Еквівалентність означає, що система однаково добре працює в різних позиціях, але її реакція зміщується з положенням цілі. Наприклад, теплова карта "face-iness" матиме подібні удари зліва, центру та справа, коли вона обробляє перший ряд зображень.
Це іноді є важливою відмінністю, але багато людей називають обидва явища "інваріантністю", тим більше, що перетворення еквівалентної відповіді в інваріантну зазвичай тривіально - просто ігнорування всієї інформації про положення).