Як я обчислюю дельта-термін згорткового шару, враховуючи дельта-умови і ваги попереднього згорткового шару?

Я намагаюся тренувати штучну нейронну мережу з двома звивистими шарами (c1, c2) та двома прихованими шарами (c1, c2). Я використовую стандартний підхід для розмноження. У зворотному проході я обчислюю термін помилки шару (дельта) на основі похибки попереднього шару, ваги попереднього шару та градієнта активації щодо функції активації поточного шару. Більш конкретно, дельта шару l виглядає так:

delta(l) = (w(l+1)' * delta(l+1)) * grad_f_a(l)

Я вмію обчислити градієнт c2, який з'єднується у звичайний шар. Я просто помножую ваги h1 з його дельтою. Потім я переформатую цю матрицю у форму виходу c2, помножую її на градієнт функції активації і я закінчую.

Тепер у мене є дельта-термін c2 - Що представляє собою 4D матрицю розміру (featureMapSize, featureMapSize, filterNum, patternNum). Крім того, у мене є ваги c2, які є тривимірною матрицею розміру (filterSize, filterSize, filterNum).

За допомогою цих двох доданків та градієнта активації c1 я хочу обчислити дельту c1.

Довга історія:

З огляду на дельта-член попереднього згорткового шару та ваги цього шару, як я обчислюю дельта-термін згорткового шару?

— cdwoelk
джерело

Я спершу вивожую помилку для згорткового шару нижче для простоти для одновимірного масиву (входу), який можна легко перенести на багатовимірний тоді:

Тут будемо вважати, що довжини є входами -го перегною. шар, - розмір ядра ваг що позначає кожну вагу а вихід - . Отже, ми можемо записати (відзначимо підсумок від нуля): де і функція активації (наприклад, сигмоїдальна). Маючи це під рукою, тепер ми можемо розглянути деяку функцію помилки та функцію помилки на згортковому шарі (той, який був у попередньому шарі), що задається $y^{l-1}$ $N$ $l-1$ $m$ $w$ $w_i$ $x^l$

x_{i}^{l} = \sum_{a = 0}^{m - 1} w_{a} y_{a + i}^{l - 1}

$x_i^l = \sum\limits_{a=0}^{m-1} w_a y_{a+i}^{l-1}$

y_{i}^{l} = f (x_{i}^{l})

$y_i^l = f(x_i^l)$

f

$f$

E

$E$

\partial E / \partial y_{i}^{l}

$\partial E / \partial y_i^l$ . Тепер ми хочемо з'ясувати залежність похибки в одній вазі в попередньому ( : де у нас є сума над усім виразом, в якому виникає , які є . Зауважимо також, що ми знаємо, що останній член виникає з того, що який ви можете бачити з першого рівняння. Для обчислення градієнта нам потрібно знати перший доданок, який можна обчислити:

\frac{\partial E}{\partial w_{a}} = \sum_{a = 0}^{N - m} \frac{\partial E}{\partial x_{i}^{l}} \frac{\partial x_{i}^{l}}{\partial w_{a}} = \sum_{a = 0}^{N - m} \frac{\partial E}{\partial w_{a}} y_{i + a}^{l - 1}

$\begin{equation} \frac{\partial E}{\partial w_a} = \sum\limits_{a=0}^{N-m} \frac{\partial E}{\partial x_i^l} \frac{\partial x_i^l}{\partial w_a} = \sum\limits_{a=0}^{N-m}\frac{\partial E}{\partial w_a} y_{i+a}^{l-1} \end{equation}$

w_{a}

$w_a$

N - m

$N-m$

\frac{\partial x_{i}^{l}}{\partial w_{a}} = y_{i + a}^{l - 1}

$\frac{\partial x_i^l}{\partial w_a}= y_{i+a}^{l-1}$

\frac{\partial E}{\partial x_{i}^{l}} = \frac{\partial E}{\partial y_{i}^{l}} \frac{\partial y_{i}^{l}}{\partial x_{i}^{l}} = \frac{\partial E}{\partial y_{i}^{l}} \frac{\partial}{\partial x_{i}^{l}} f (x_{i}^{l})

$\frac{\partial E}{\partial x_i^l} = \frac{\partial E}{\partial y_i^l} \frac{\partial y_i^l}{\partial x_i^l} = \frac{\partial E}{\partial y_i^l} \frac{\partial}{\partial x_i^l} f(x_i^{l})$ де знову перший член - помилка в попередньому шарі і нелінійна функція активації.

f

$f$

Маючи всі необхідні сутності, тепер ми можемо обчислити помилку та ефективно її поширити на дорогоцінний шар: Зверніть увагу, що останній крок може зрозуміти легко, коли -s wrt -s. відноситься до транспоновану вазі maxtrix ( ).

δ_{a}^{l - 1} = \frac{\partial E}{\partial y_{i}^{l - 1}} = \sum_{a = 0}^{m - 1} \frac{\partial E}{\partial x_{i - a}^{l}} \frac{\partial x_{i - a}^{l}}{\partial y_{i}^{l - 1}} = \sum_{a = 0}^{m - 1} \frac{\partial E}{\partial x_{i - a}^{l}} w_{a}^{f l i p p e d}

$\delta^{l-1}_a = \frac{\partial E}{\partial y_i^{l-1} } = \sum\limits_{a=0}^{m-1} \frac{\partial E}{\partial x_{i-a}^l} \frac{\partial x_{i-a}^l}{\partial y_i^{l-1}} = \sum\limits_{a=0}^{m-1} \frac{\partial E}{\partial x^l_{i-a}} w_a^{flipped}$

x_{i}^{l}

$x_i^l$

y_{i}^{l - 1}

$y_i^{l-1}$

f l i p p e d

$flipped$

T

$T$

Тому ви можете просто обчислити помилку в наступному шарі за допомогою (тепер у векторних позначеннях):

δ^{l} = (w^{l})^{T} δ^{l + 1} f^{'} (x^{l})

$\delta^{l} = (w^{l})^{T} \delta^{l+1} f'(x^{l})$

що стає для шару згортки та підсимплементації: де Операція поширює помилку через максимальний шар об'єднання.

δ^{l} = u p s a m p l e ((w^{l})^{T} δ^{l + 1}) f^{'} (x^{l})

$\delta^{l} = upsample((w^{l})^{T} \delta^{l+1}) f'(x^{l})$

u p s a m p l e

$upsample$

Будь ласка, додайте або виправте мене!

Для довідок див:

http://ufldl.stanford.edu/tutorial/supervision/ConvolutionalNeuralNetwork/ http://andrew.gibiansky.com/blog/machine-learning/convolutional-neural-networks/

і для реалізації C ++ (без необхідності встановлення): https://github.com/nyanp/tiny-cnn#supported-networks

— LeoW.
джерело