Може хтось пояснить, будь ласка, алгоритм зворотного поширення? [дублікат]

13

Що таке алгоритм зворотного поширення і як він працює?

algorithms optimization neural-networks

— Амі
джерело

1

Я поєднав відповідь на це питання тут , якщо кому - то цікаво (я не хочу передруковувати).

— Філіїда

14

Алгоритм зворотного розповсюдження - це алгоритм спуску градієнта для встановлення моделі нейронної мережі. (як згадував @Dikran) Дозвольте пояснити, як.

Формально: Використання обчислення градієнта в кінці цього посту в рівнянні [1] нижче (тобто визначення градієнтного спуску) дає зворотний алгоритм поширення як окремий випадок використання градієнтного спуску.

Модель нейронної мережі Формально ми фіксуємо ідеї за допомогою простої одношарової моделі:

f (x) = g (A^{1} (s (A^{2} (x))))

$f(x)=g(A^1(s(A^2(x))))$ де і відомі з усіма , , і , - невідомі афінні функції. Функція називається функцією активації в рамках класифікації.

g : R \to R

$g:\mathbb{R} \rightarrow \mathbb{R}$

s : R^{M} \to R^{M}

$s:\mathbb{R}^M\rightarrow \mathbb{R}^M$

m = 1 \dots, M

$m=1\dots,M$

s (x) [m] = σ (x [m])

$s(x)[m]=\sigma(x[m])$

A^{1} : R^{M} \to R

$A^1:\mathbb{R}^M\rightarrow \mathbb{R}$

A^{2} R^{p} \to R^{M}

$A^2\mathbb{R}^p\rightarrow \mathbb{R}^M$

σ : R \to R

$\sigma:\mathbb{R}\rightarrow \mathbb{R}$

Для фіксації ідей береться квадратична функція втрати . Отже , вхідний вектори може бути встановлений на реальний обсяг виробництва з (може бути векторами) шляхом мінімізації емпіричного втрата: стосовно вибору і . $(x_1,\dots,x_n)$ $\mathbb{R}^p$ $(y_1,\dots,y_n)$ $\mathbb{R}$

R_{n} (A^{1}, A^{2}) = \sum_{i = 1}^{n} (y_{i} - f (x_{i}))^{2} [1]

$\mathcal{R}_n(A^1,A^2)=\sum_{i=1}^n (y_i-f(x_i))^2\;\;\;\;\;\;\; [1]$

A^{1}

$A^1$

A^{2}

$A^2$

Спуск градієнта Градієнтний спуск для мінімізації- це алгоритм, який повторює: для добре вибраних розмірів кроків(також називається швидкістю навчання в рамках розповсюдження спини). Він вимагає обчислення градієнта. У розглянутому випадку. $\mathcal{R}$

a_{l + 1} = a_{l} - γ_{l} \nabla R (a_{l}), l \geq 0.

$\mathbf{a}_{l+1}=\mathbf{a}_l-\gamma_l \nabla \mathcal{R}(\mathbf{a}_l),\ l \ge 0.$

(γ_{l})_{l}

$(\gamma_l)_l$

R

$\mathcal{R}$

a_{l} = (A_{l}^{1}, A_{l}^{2})

$\mathbf{a}_l=(A^1_{l},A^2_{l})$

Градієнт $\mathcal{R}$ (для простої розглянутої моделі нейронної сітки) Позначимо через градієнт як функцію та градієнт як функція . Стандартний обчислення (з використанням правила для виведення складу функцій) та використання позначення дають для всіх $\nabla_1 \mathcal{R}$ $\mathcal{R}$ $A^1$ $\nabla_2\mathcal{R}$ $\mathcal{R}$ $A^2$ $z_i=A^1(s(A^2(x_i)))$

\nabla_{1} R [1 : M] = - 2 \times \sum_{i = 1}^{n} z_{i} g^{'} (z_{i}) (y_{i} - f (x_{i}))

$\nabla_1 \mathcal{R}[1:M] =-2\times \sum_{i=1}^n z_i g'(z_i) (y_i-f(x_i))$

m = 1, \dots, M

$m=1,\dots,M$

\nabla_{2} R [1 : p, m] = - 2 \times \sum_{i = 1}^{n} x_{i} g^{'} (z_{i}) z_{i} [m] σ^{'} (A^{2} (x_{i}) [m]) (y_{i} - f (x_{i}))

$\nabla_2 \mathcal{R}[1:p,m] =-2\times \sum_{i=1}^n x_i g'(z_i) z_i[m]\sigma'(A^2(x_i)[m]) (y_i-f(x_i))$

Тут я використав позначення R: - вектор, що складається з координат від індексу до індексу . $x[a:b]$ $x$ $a$ $b$

— Робін Жирард
джерело

11

Зворотне пропонування - це спосіб опрацювання похідної функції помилки щодо ваг, щоб модель могла бути навчена методами оптимізації градієнта спуску - це в основному лише застосування «правила ланцюга». Насправді це не набагато більше, тому, якщо вам зручно з числення, це в основному найкращий спосіб поглянути на це.

Якщо вам не комфортно з обчисленням, кращим способом було б сказати, що ми знаємо, наскільки погано працюють вихідні одиниці, оскільки у нас є бажаний вихід, з яким можна порівняти фактичний вихід. Однак у нас немає бажаного виводу для прихованих одиниць, і що ми робимо? Правило зворотного розповсюдження - це, головним чином, спосіб винесення вини за помилку вихідних одиниць на приховані одиниці. Чим більше вплив прихованої одиниці має на певний вихідний блок, тим більше звинувачення він отримує за помилку. Тотальне звинувачення, пов'язане з прихованою одиницею, то вказує на те, наскільки потрібно змінювати вагу вхідного та прихованого шару. Дві речі, які регулюють, скільки провини передається назад, - це вага, що з'єднує ваги прихованого та вихідного шарів (очевидно) та вихід прихованого блоку (якщо він кричить, а не шепоче, це, ймовірно, матиме більший вплив). Решта - це лише математичні тонкощі, які перетворюють цю інтуїцію на похідну від критерію тренувань.

Я також порекомендував бискупську книгу для правильної відповіді! ; o)

— Дікран Марсупіал
джерело

2

Це алгоритм для навчання подачі багатошарових нейронних мереж (багатошарових перцептронів). У Інтернеті є кілька приємних яблучних аплетів, які ілюструють те, що відбувається, як-от цей: http://neuron.eng.wayne.edu/bpFunctionApprox/bpFunctionApprox.html . Крім того, книга Бішопа про NN - це стандартна довідка на робочому столі для будь-якого відношення до NN.

— Стівен Тернер
джерело

Намагаючись створити постійне сховище високоякісної статистичної інформації у формі питань та відповідей, ми намагаємось уникати відповідей, що відповідають лише посиланням . Якщо ви в змозі, можете розширити це, можливо, надавши короткий опис інформації за посиланням?

— Glen_b -Встановіть Моніку