Яка різниця між "еквівалентом перекладу" та "інваріантним для перекладу"

38

У мене виникають проблеми з розумінням різниці між еквівалентом перекладу та інваріантним для перекладу .

У книзі « Глибоке навчання» . MIT Press, 2016 (I. Goodfellow, A. Courville, Y. Bengio), можна знайти в конволюційних мережах:

[...] конкретна форма спільного використання параметрів спричиняє властивість шару, який називається еквівалентністю перекладу
[...] об'єднання допомагає зробити подання приблизно інваріантним до невеликих перекладів вхідних даних

Чи є різниця між ними або терміни взаємозамінні?

neural-network deep-learning convolution

— Аамір
джерело

2

У старі часи статистики, як і за часів Пітмана, інваріант вживався в значенні еквівалент.

— Сіань

39

Еквівалентність та інваріантність іноді використовуються взаємозамінно. Як вказував @ Xi'an , ви можете знайти використання в статистичній літературі, наприклад, про поняття інваріантного оцінювача і особливо для оцінки Пітмана .

Однак я хотів би зазначити, що було б краще, якщо обидва терміни залишаються відокремленими , оскільки префікс " in- " в інваріанті є приватним (означає "взагалі немає варіації"), тоді як " equi- " в еквіваленті означає "варіюється в аналогічній або еквівалентній пропорції ". Іншими словами, один не рухається, інший робить .

Почнемо з простих функцій зображення, і припустимо, що зображення має унікальний максимум при просторовому розташуванні пікселів , що тут є основною ознакою класифікації. Іншими словами: зображення та всі його переклади "однакові" . Цікавою властивістю класифікаторів є їх здатність класифікувати таким же чином , деякі спотворені версії з , наприклад , переклади всіх векторів . $I$ $m$ $(x_m,y_m)$ $I'$ $I$ $(u,v)$

Максимальне значення з є інваріантом : : значення одне і те ж. У той час як його розташування буде в , і є еквівалентним , тобто змінюється "однаково" з викривленням . $m'$ $I'$ $m'=m$ $(x'_m,y'_m)=(x_m-u,y_m-v)$

Точні формулювання, надані в математиці для еквівалентності, залежать від об'єктів та перетворень, які вважаються, тому я віддаю перевагу поняттю, яке найчастіше використовується на практиці (і я можу отримати провину з теоретичної точки зору).

Тут переклади (або якась більш родова дія) можуть бути оснащені структурою групи , є одним конкретним оператором перекладу. Функція або функція є інваріантною під якщо для всіх зображень у класі, а для будь-яких , $G$ $g$ $f$ $G$ $g$

f (g (I)) = f (I) .

$f(g(I)) = f(I)\,.$

Він стає еквівалентним, якщо існує інша математична структура або дія (часто група) яка відображає перетворення в змістовно . Іншими словами, таким, що для кожного вас є один унікальний такий, що $G'$ $G$ $g$ $g' \in G'$

f (g (I)) = g^{'} (f (I)) .

$f(g(I)) = g'(f(I))\,.$

У наведеному вище прикладі для групи перекладів, і є однаковими (а значить, ): цілий переклад зображення відображає як точно той же переклад максимального місця розташування. $g$ $g'$ $G'=G$

Ще одне поширене визначення:

f (g (I)) = g (f (I)) .

$f(g(I)) = g(f(I))\,.$

Однак я використовував потенційно різні і оскільки іноді і не знаходяться в одній області. Це відбувається, наприклад, у багатоваріантній статистиці (див., Наприклад, властивості еквівалентності та інваріантності багатоваріантних квантильних та пов'язаних з ними функцій та роль стандартизації ). Але тут унікальність відображення між і дозволяє повернутися до початкового перетворення . $G$ $G'$ $f(I)$ $g(I)$ $g$ $g'$ $g$

Часто люди використовують термін інваріантність, оскільки поняття еквівалентності невідоме, або всі інші використовують інваріантність, а еквівалентність здасться більш педантичною.

Для запису інші споріднені поняття (особливо з математики та фізики) називаються коваріацією , контраваріантністю , диференціальною інваріантністю .

Крім того, інваріантність перекладу, як мінімум приблизна, або в конверті, була пошуком декількох засобів обробки сигналів та зображень. Помітно, багатошвидкісні (банки фільтрів) та багатомасштабні (вейвлети чи піраміди) перетворення були розроблені протягом останніх 25 років, наприклад, під кришкою інваріантних змін, крутильних циклів, стаціонарних, складних, двоярусних вейвлет-перетворення (для огляду двовимірних вейвлетів, Панорама на багатомасштабні геометричні зображення ). Вейвлети можуть поглинати кілька дискретних варіацій масштабу. Усі тези (приблизні) інваріанції часто поставляються із ціною надмірності кількості перетворених коефіцієнтів. Але вони з більшою ймовірністю дають ознаки, що змінюють інваріантність змін або еквівалент змін.

— Лоран Дюваль
джерело

4

Чудово! Я дуже захоплююсь вашими зусиллями за детальну відповідь @Laurent Duval

— Аамір

24

Умови різні:

Еквівалентний перекладу означає, що переклад вхідних ознак призводить до еквівалентного перекладу результатів. Отже, якщо ваш шаблон 0,3,2,0,0 для вхідних даних призводить до 0,1,0,0 у виході, тоді шаблон 0,0,3,2,0 може призвести до 0,0,1, 0
Інваріантний до перекладу означає, що переклад функцій введення зовсім не змінює виходи. Отже, якщо ваш зразок 0,3,2,0,0 на вхідних результатах приводить до 0,1,0 у виході, тоді шаблон 0,0,3,2,0 також призводить до 0,1,0

Щоб карти функцій у згорткових мережах були корисними, вони зазвичай потребують обох властивостей у деякому балансі. Еквівалентність дозволяє мережі узагальнювати виявлення краю, текстури, форми в різних місцях. Інваріантність дозволяє точному розташуванню виявлених ознак менше мати значення. Це два взаємодоповнюючих типи узагальнення для багатьох завдань з обробки зображень.

— Ніл Слейтер
джерело

Перекладена функція дає переведений вихід на якомусь рівні. Будь ласка, докладно поясніть про значно перекладений цілий об'єкт, що виявляється. Здається, це буде виявлено, навіть якщо CNN не навчався із зображеннями, що містять різні позиції? Чи є в цьому випадку еквівалентність (схожа на інваріантність)?

— VladimirLenin

@VladimirLenin: Я не думаю, що для цього питання потрібна розробка, це, безумовно, не те, що тут задала ОП. Я пропоную вам задати окреме запитання, якщо це можливо, конкретний приклад. Навіть якщо візуально було переведено "цілий об'єкт", це не означає, що карти функцій у CNN відслідковують те саме, що ви очікували.

— Ніл Слейтер

4

Просто додаю мої 2 копійки

Щодо завдання класифікації зображень, розв’язаного з типовою архітектурою CNN, що складається з резервного (Convolutions + NL + можливо просторового об'єднання), який виконує представницьке навчання та Frontend (наприклад, повністю пов'язані шари, MLP), який вирішує конкретну задачу, в цьому випадку зображення класифікація, ідея полягає в тому, щоб побудувати функцію здатну зіставити з просторового домену (вхідне зображення) до семантичного домену (набір міток) в 2-х кроковому процесі, який є $f : I \rightarrow L$ $I$ $L$

Бекенд (Представницьке навчання): відображає вхід у латентний семантичний простір $f : I \rightarrow \mathcal{L}$
Frontend (вирішення конкретного завдання): карти від латентного семантичного простору до кінцевого простору мітки $f : \mathcal{L} \rightarrow L$

і виконується з використанням наступних властивостей

просторова еквівалентність відносно ConvLayer (просторовий 2D згортка + nonLin, наприклад, ReLU) як зсув введення шару створює зсув вихідного рівня шару (Примітка: мова йде про шар, а не про одного оператора згортання)
просторова інваріантність відносно оператора об'єднання (наприклад, Макс. пул передає значення максимуму у своєму сприйнятливому полі незалежно від його просторового положення)

Чим ближче до вхідного шару, тим ближче до чисто просторової області і тим важливіша властивість просторової еквівалентності, яка дозволяє будувати просторово-еквівалентне ієрархічне (дедалі більше) семантичне подання $I$

Чим ближче до фронтеду, тим ближче до латентної суто семантичної області і тим важливішою є просторова інваріантність, оскільки конкретне значення зображення бажано бути незалежним від просторових позицій ознак $\mathcal{L}$

Використання повністю з'єднаних шарів у фронтені робить класифікатор чутливим до позиції функції в деякій мірі, залежно від структури доповнення: чим глибше він і тим більше використовується оператор інваріантного перекладу (Pooling)

У кількісній оцінці інваріації перекладу в конволюційних нейронних мережах було показано, що для вдосконалення інваріації трансляції класифікатора CNN замість дії на індуктивний зміщення (архітектура, отже, глибина, об'єднання,…) ефективніше діяти на зміщення набору даних (збільшення даних) )

— Нікола Берніні
джерело