«Теорема глибокого Нітера»: побудова обмежень симетрії

Якщо у мене є проблема навчання, яка повинна мати властиву симетрію, чи є спосіб піддати мою проблему навчання обмеженням симетрії для покращення навчання?

Наприклад, якщо я роблю розпізнавання зображень, я, можливо, захочу 2D обертальну симетрію. Це означає, що повернута версія зображення повинна мати такий же результат, як і оригінал.

Або якщо я вчуся грати в тик-так-носок, то обертання на 90deg повинно дати ту саму гру.

Чи було зроблено якісь дослідження з цього приводу?

machine-learning

— aidan.plenert.macdonald
джерело

Так, деякі; наприклад, група Еквіваріантная Конволюціонное Networks ( код ), гармонійні мережі: Deep Переклад і обертання еквіваріантность , Deep Rotation Еквіваріантние мережі , експлуатуючи ціклосімметрія в згортальних нейронних мережах і т.д. Ви просто не бачите його багато в дикій природі ще.

— Emre

@Emre Спасибі! Чи знаєте ви про будь-яку роботу поза CNN?

— aidan.plenert.macdonald

Ні, я маю лише поверхневі знання про цю нішу. Незважаючи на те, CNN здаються природними умовами ...

— Emre

Я також повинен згадати докторську дисертацію Рісі Кондор, Групові теоретичні методи в машинному навчанні (pdf)

— Емре

З коментаря Емре вище, в розділі 4.4 Групових теоретичних методів машинного навчання Різі Кондор є детальна інформація та докази створення методів ядра, які по суті мають симетрію. Я підсумую це, сподіваючись інтуїтивно зрозумілим чином (я фізик, а не математик!).

Більшість алгоритмів ML мають матричне множення на зразок,

\begin{aligned} с_{i} & = \sum_{j} W_{i j} х_{j} \\ = \sum_{j} W_{i j} ({\vec{е}}_{j} \cdot \vec{х}) \end{aligned}

$\begin{align} s_i &= \sum_j W_{ij}~x_j \\ &= \sum_j W_{ij}~(\vec{e}_j \cdot \vec{x}) \end{align}$ з

\vec{x}

$\vec{x}$ будучи вхідним і

W_{i j}

$W_{ij}$ будучи вагами, які ми хочемо тренувати.

Метод ядра

Введіть сферу методів ядра і дозвольте алгоритму обробляти вхід через,

\begin{aligned} с_{i} & = \sum_{j} W_{i j} к (е_{j}, х) \end{aligned}

$\begin{align} s_i &= \sum_j W_{ij}~k(e_j,~x) \end{align}$ де ми зараз узагальнюємо

x, e_{j} \in X

$x, e_j \in \mathcal{X}$ .

Розглянемо групу $G$ що діє на $\mathcal{X}$ через $x \rightarrow T_g(x)$ для $g \in G$ . Простий спосіб зробити наш алгоритм інваріантним під цією групою - це зробити ядро,

\begin{aligned} к^{Г} (х, у) & = \frac{1}{| Г |} \sum_{г \in Г} к (х, Т_{г} (у)) \end{aligned}

$\begin{align} k^G(x, y) &= \frac{1}{|G|} \sum_{g \in G} k(x, T_g(y)) \end{align}$ з

k (x, y) = k (T_{g} (x), T_{g} (y))

$k(x, y) = k(T_g(x), T_g(y))$ .

Тому,

\begin{aligned} к^{Г} (х, Т_{год} (у)) & = \frac{1}{| Г |} \sum_{г \in Г} к (х, Т_{г год} (у)) \\ = \frac{1}{| Г |} \sum_{г \in Г} к (х, Т_{г} (у)) \\ = \frac{1}{| Г |} \sum_{г \in Г} к (Т_{г} (х), у) \end{aligned}

$\begin{align} k^G(x, T_h(y)) &= \frac{1}{|G|} \sum_{g \in G} k(x, T_{gh}(y)) \\ &= \frac{1}{|G|} \sum_{g \in G} k(x, T_{g}(y)) \\ &= \frac{1}{|G|} \sum_{g \in G} k(T_{g}(x), y) \end{align}$

Для $k(x, y) = x \cdot y$ яка працює для всіх унітарних представництв,

\begin{aligned} к^{Г} (х, Т_{год} (у)) & = [\frac{1}{| Г |} \sum_{г \in Г} Т_{г} (х)] \cdot у \end{aligned}

$\begin{align} k^G(x, T_h(y)) &= \left[ \frac{1}{|G|} \sum_{g \in G} T_{g}(x) \right] \cdot y \end{align}$

Яка пропонує матрицю перетворення, яка може симетризувати вхід в алгоритм.

SO (2) Приклад

Насправді просто група, на яку відображається карта $\frac{\pi}{2}$ обертання для простоти.

Давайте проведемо лінійну регресію на даних $(\vec{x}_i, y_i) \in \mathbb{R}^2 \times \mathbb{R}$ де ми очікуємо обертальну симетрію.

Наша проблема оптимізації стає,

\begin{aligned} \underset{W_{j}}{хв} & \sum_{i} \frac{1}{2} (у_{i} - {\tilde{у}}_{i})^{2} \\ {\tilde{у}}_{i} & = \sum_{j} W_{j} к_{Г} (е_{j}, х_{i}) + б_{i} \end{aligned}

$\begin{align} \min_{W_{j}} &\sum_i \frac{1}{2} (y_i - \tilde{y}_i)^2 \\ \tilde{y}_i &= \sum_j W_{j} k_G(e_j, x_i) + b_i \end{align}$

Ядро $k(x, y) = \| x - y \|^2$ задовольняє . Ви також можете використовувати та різні ядра. $k(x, y) = k(T_g(x), T_g(y))$ $k(x, y) = x \cdot y$

Таким чином,

\begin{aligned} к_{Г} (е_{j}, х_{i}) & = \frac{1}{4} \sum_{н = 1}^{4} ‖ R (н π / 2) {\vec{е}}_{j} - {\vec{х}}_{i} ‖^{2} \\ = \frac{1}{4} \sum_{н = 1}^{4} (\cos (н π / 2) - {\vec{х}}_{i 1})^{2} + (гріх (н π / 2) - {\vec{х}}_{i 2})^{2} \\ = \frac{1}{4} [2 {\vec{х}}_{i 1}^{2} + 2 {\vec{х}}_{i 2}^{2} + (1 - {\vec{х}}_{i 1})^{2} + (1 - {\vec{х}}_{i 2})^{2} + (1 + {\vec{х}}_{i 1})^{2} + (1 + {\vec{х}}_{i 2})^{2}] \\ = {\vec{х}}_{i 1}^{2} + {\vec{х}}_{i 2}^{2} + 1 \end{aligned}

$\begin{align} k_G(e_j, x_i) &= \frac{1}{4} \sum_{n=1}^4 \| R(n\pi/2)~\vec{e}_j - \vec{x}_i \|^2 \\ &= \frac{1}{4} \sum_{n=1}^4 ( \cos(n\pi/2) - \vec{x}_{i1} )^2 + ( \sin(n\pi/2) - \vec{x}_{i2} )^2 \\ &= \frac{1}{4} \left[ 2 \vec{x}_{i1}^2 + 2 \vec{x}_{i2}^2 + (1 - \vec{x}_{i1} )^2 + (1 - \vec{x}_{i2} )^2 + (1 + \vec{x}_{i1} )^2 + (1 + \vec{x}_{i2} )^2 \right] \\ &= \vec{x}_{i1}^2 + \vec{x}_{i2}^2 + 1 \end{align}$

Зауважте, що нам не потрібно сумувати понад оскільки це однаково для обох. Отже, наша проблема стає, $j$

\begin{aligned} \underset{W}{хв} & \sum_{i} \frac{1}{2} (у_{i} - {\tilde{у}}_{i})^{2} \\ {\tilde{у}}_{i} & = W [{\vec{х}}_{i 1}^{2} + {\vec{х}}_{i 2}^{2} + 1] + б_{i} \end{aligned}

$\begin{align} \min_{W} &\sum_i \frac{1}{2} (y_i - \tilde{y}_i)^2 \\ \tilde{y}_i &= W \left[ \vec{x}_{i1}^2 + \vec{x}_{i2}^2 + 1 \right] + b_i \end{align}$

Що дає очікувану сферичну симетрію!

Хрестики-нулики

Приклад коду можна побачити тут . Він показує, як ми можемо створити матрицю, що кодує симетрію, і використовувати її. Зауважте, що це справді погано, коли я його фактично запускаю! Наразі робота з іншими ядрами.

— aidan.plenert.macdonald
джерело

Гарна робота, Айдане! Якщо у вас є час, ви можете написати більш детальну публікацію в блозі. Громада буде найбільше зацікавлена.

— Emre

Не впевнений, про яку спільноту ви маєте на увазі, але я почав писати більше. Я хотів знайти спосіб оцінити оптимальне ядро з урахуванням набору даних. Тому я оптимізував ентропію на просторі ядра, щоб інтуїтивно отримати новий набір функцій, симетрично обмежених та максимально ентропічних (тобто інформативних). Тепер, чи це правильний підхід. Я не можу сказати. Просто попередження, математика - це трохи зламана робота прямо зараз і якась поза статтю. overleaf.com/read/kdfzdbyhpbbq

— aidan.plenert.macdonald

Чи є якийсь змістовний підхід, коли група симетрії не відома?

— leitasat

@leitasat Як ви знаєте, що це симетрично, якщо ви не знаєте групи?

— aidan.plenert.macdonald

@ aidan.plenert.macdonald з даних. Скажімо, у нас є 1000 наборів із 100 зображень у кожному, і всередині кожного набору є зображення одного об’єкта з різних точок зору. Чи може будь-який алгоритм «вивчити ідею» симетрії SO (3) та використовувати її на раніше небачених об’єктах?

— leitasat

Виявляється, це лише вивчення інваріантної теорії, застосованої до машинного навчання

— aidan.plenert.macdonald
джерело