Перелік функцій витрат, що використовуються в нейронних мережах, поряд із додатками

133

Які загальновиробничі функції, що використовуються при оцінці працездатності нейронних мереж?

Деталі

(не соромтеся пропустити решту цього питання. Мій намір тут - просто дати пояснення щодо того, що відповіді можуть бути використані, щоб допомогти їм бути зрозумілішими для широкого читача)

Я думаю, було б корисно скласти перелік загальних функцій витрат, а також декілька способів, які вони використовуються на практиці. Тож якщо інших це цікавить, я думаю, що вікі спільноти - це, мабуть, найкращий підхід, або ми можемо зняти це, якщо це поза темою.

Позначення

Для початку я хотів би визначити позначення, які ми всі використовуємо при їх описі, тому відповіді добре поєднуються між собою.

Це позначення з книги Нілсена .

Нейронна мережа Feedforward - це багато шарів нейронів, з'єднаних між собою. Тоді він приймає на вхід, що вхід "просочується" через мережу, а потім нейронна мережа повертає вихідний вектор.

Більш формально викликати активацію (ака-вихід) нейрона нейрона в шарі , де - елемент у вхідному векторі. $a^i_j$ $j^{th}$ $i^{th}$ $a^1_j$ $j^{th}$

Тоді ми можемо пов’язати вхід наступного шару з попереднім через наступне відношення:

$a^i_j = \sigma(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j)$

де

$\sigma$ - функція активації,

$w^i_{jk}$ - вага від нейрона в шарі до нейрона в шарі, $k^{th}$ $(i-1)^{th}$ $j^{th}$ $i^{th}$

$b^i_j$ - зміщення нейрона в шарі , і $j^{th}$ $i^{th}$

$a^i_j$ представляє значення активації нейрона в шарі. $j^{th}$ $i^th$

Іноді ми пишемо щоб представляти , іншими словами, значення активації нейрона перед застосуванням функції активації . $z^i_j$ $\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j$

введіть тут опис зображення

Для більш коротких позначень ми можемо написати

$a^i = \sigma(w^i \times a^{i-1} + b^i)$

Щоб використовувати цю формулу для обчислення виходу мережі подачі для деякого входу , встановіть , а потім обчислити , , ..., , де m - кількість шарів. $I \in \mathbb{R}^n$ $a^1 = I$ $a^2$ $a^3$ $a^m$

Вступ

Функція вартості - це міра "наскільки добре" зробила нейронна мережа щодо даного навчального зразка та очікуваного результату. Це також може залежати від змінних, таких як вага і зміщення.

Функція вартості - це єдине значення, а не вектор, оскільки воно оцінює, наскільки добре нейронна мережа зробила в цілому.

Зокрема, форма витрат має форму

C (W, B, S^{r}, E^{r})

$C(W, B, S^r, E^r)$

де - ваги нашої нейронної мережі, - ухили нашої нейронної мережі, - вхід єдиного тренувального зразка, а - бажаний вихід цього навчального зразка. Зверніть увагу, що ця функція також може бути залежною від та для будь-якого нейрона у шарі , оскільки ці значення залежать від , та . $W$ $B$ $S^r$ $E^r$ $y^i_j$ $z^i_j$ $j$ $i$ $W$ $B$ $S^r$

У зворотному розповсюдженні функція витрат використовується для обчислення похибки нашого вихідного шару, , через $\delta^L$

δ_{j}^{L} = \frac{\partial C}{\partial a_{j}^{L}} σ^{'} (z_{j}^{i})

$\delta^L_j = \frac{\partial C}{\partial a^L_j} \sigma^{ \prime}(z^i_j)$ .

Що також можна записати у вигляді вектора через

δ^{L} = \nabla_{a} C ⊙ σ^{'} (z^{i})

$\delta^L = \nabla_a C \odot \sigma^{ \prime}(z^i)$ .

Ми надамо градієнт функцій витрат з точки зору другого рівняння, але якщо хтось хоче сам довести ці результати, рекомендується використовувати перше рівняння, оскільки з ним легше працювати.

Вимоги до функції витрат

Для використання у зворотному розповсюдженні функція витрат повинна відповідати двом властивостям:

1: Функція витрат повинна бути спроможна записати як середню $C$

C = \frac{1}{n} \sum_{x} C_{x}

$C=\frac{1}{n} \sum\limits_x C_x$

над витратними функціями для окремих прикладів навчання, . $C_x$ $x$

Це так, що дозволяє обчислити градієнт (стосовно ваг та ухилів) для єдиного прикладу тренувань та запустити Градієнт Спуск.

2: Функція витрат не повинно залежати від будь-яких значень активації нейронної мережі , крім вихідних значень . $C$ $a^L$

Технічно ціна функції може залежати від будь-якого або . Ми просто робимо це обмеження, щоб ми могли пропагувати, оскільки рівняння для знаходження градієнта останнього шару є єдиним, яке залежить від функції витрат (решта залежать від наступного шару). Якщо функція вартості залежить від інших шарів активації, окрім вихідного, зворотне розповсюдження буде недійсним, оскільки ідея "прокручування назад" вже не працює. $a^i_j$ $z^i_j$

Також функції активації повинні мати вихід для всіх . Таким чином, ці функції витрат потрібно визначати лише в межах цього діапазону (наприклад, є дійсним, оскільки нам гарантується ). $0\leq a^L_j \leq 1$ $j$ $\sqrt{a^L_j}$ $a^L_j \geq 0$

machine-learning neural-networks

— Філіїда
джерело

Це веб-сайт із питань запитання, і формат цієї публікації не дуже відповідає цьому. Напевно, ви повинні поставити більшість вмісту у відповідь, а залишити лише питання (наприклад, що таке перелік функцій витрат, що використовуються в національних мережах?).

— Роджер Фан

Гаразд, це краще? Я думаю, що визначення є важливими, інакше відповіді стають невиразними для тих, хто не знайомий з термінологією, яку використовує письменник.

— Філіїда

Але що робити, якщо інша відповідь використовує різні позначення чи термінологію?

— Роджер Фан

Ідея полягає в тому, що всі тут використовують одну і ту ж термінологію, і якщо це інше, ми перетворюємо її на це, тож відповіді "підходять" один до одного. Але я думаю, що я міг би зняти цю частину, якщо ви не вважаєте, що це корисно.

— Філіїда

Я просто думаю, що деталь, в яку йдеться питання, насправді не потрібна чи актуальна. Це здається трохи надмірним і обмежуючим, але це тільки я.

— Роджер Фан

Відповіді:

Ось ті, кого я розумію поки що. Більшість із них найкраще працюють, коли задаються значення від 0 до 1.

Квадратична вартість

Також відомий як середня помилка в квадраті , максимальна ймовірність і помилка в квадраті , це визначається як:

C_{M S T} (W, B, S^{r}, E^{r}) = 0.5 \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2}

$C_{MST}(W, B, S^r, E^r) = 0.5\sum\limits_j (a^L_j - E^r_j)^2$

Градієнт цієї функції витрат відносно виходу нейронної мережі та деякої вибірки дорівнює: $r$

\nabla_{a} C_{M S T} = (a^{L} - E^{r})

$\nabla_a C_{MST} = (a^L - E^r)$

Перехресна ентропія

Також відомий як негативна ймовірність лор- Бернуллі та Бінарна крос-ентропія

C_{C E} (W, B, S^{r}, E^{r}) = - \sum_{j} [E_{j}^{r} ln a_{j}^{L} + (1 - E_{j}^{r}) ln (1 - a_{j}^{L})]

$C_{CE}(W, B, S^r, E^r) = -\sum\limits_j [E^r_j \text{ ln } a^L_j + (1 - E^r_j) \text{ ln }(1-a^L_j)]$

Градієнт цієї функції витрат відносно виходу нейронної мережі та деякої вибірки дорівнює: $r$

\nabla_{a} C_{C E} = \frac{(a^{L} - E^{r})}{(1 - a^{L}) (a^{L})}

$\nabla_a C_{CE} = \frac{(a^L - E^r)}{(1-a^L)(a^L)}$

Експоненційна вартість

Для цього потрібно вибрати якийсь параметр який, на вашу думку, призведе до потрібної вам поведінки. Зазвичай вам просто потрібно буде пограти з цим, поки все не вийде добре. $\tau$

C_{E X P} (W, B, S^{r}, E^{r}) = τ \exp (\frac{1}{τ} \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2})

$C_{EXP}(W, B, S^r, E^r) = \tau\text{ }\exp(\frac{1}{\tau} \sum\limits_j (a^L_j - E^r_j)^2)$

де є просто скороченням для . $\text{exp}(x)$ $e^x$

Градієнт цієї функції витрат відносно виходу нейронної мережі та деякої вибірки дорівнює: $r$

\nabla_{a} C = \frac{2}{τ} (a^{L} - E^{r}) C_{E X P} (W, B, S^{r}, E^{r})

$\nabla_a C = \frac{2}{\tau}(a^L- E^r)C_{EXP}(W, B, S^r, E^r)$

Я міг би переписати , але це здається зайвим. Точка - градієнт обчислює вектор, а потім помножує його на . $C_{EXP}$ $C_{EXP}$

Відстань Хеллінгера

C_{H D} (W, B, S^{r}, E^{r}) = \frac{1}{\sqrt{2}} \sum_{j} (\sqrt{a_{j}^{L}} - \sqrt{E_{j}^{r}})^{2}

$C_{HD}(W, B, S^r, E^r) = \frac{1}{\sqrt{2}}\sum\limits_j(\sqrt{a^L_j}-\sqrt{E^r_j})^2$

Більше про це можна дізнатися тут . Це повинно мати позитивні значення, а в ідеалі - значення від до . Те саме стосується наступних розбіжностей. $0$ $1$

Градієнт цієї функції витрат відносно виходу нейронної мережі та деякої вибірки дорівнює: $r$

\nabla_{a} C = \frac{\sqrt{a^{L}} - \sqrt{E^{r}}}{\sqrt{2} \sqrt{a^{L}}}

$\nabla_a C = \frac{\sqrt{a^L}-\sqrt{E^r}}{\sqrt{2}\sqrt{a^L}}$

Відбій Кулбека – Лейблера

Також відомий як інформаційної дивергенції , інформація про посилення , відносної ентропії , KLIC або KL дивергенції (див тут ).

Відбій Кулбека – Лейблера зазвичай позначається ,

D_{K L} (P ‖ Q) = \sum_{i} P (i) \ln \frac{P (i)}{Q (i)}

$D_{\mathrm{KL}}(P\|Q) = \sum_i P(i) \, \ln\frac{P(i)}{Q(i)}$

де є мірою втрати інформації при використовується для апроксимації . Таким чином, ми хочемо встановити і , тому що ми хочемо виміряти, скільки інформації втрачено, коли ми використовуємо для наближення . Це нам дає $D_{\mathrm{KL}}(P\|Q)$ $Q$ $P$ $P=E^i$ $Q=a^L$ $a^i_j$ $E^i_j$

C_{K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}}

$C_{KL}(W, B, S^r, E^r)=\sum\limits_jE^r_j \log \frac{E^r_j}{a^L_j}$

Решта розбіжності тут використовувати цю ж ідею створення і . $P=E^i$ $Q=a^L$

Градієнт цієї функції витрат відносно виходу нейронної мережі та деякої вибірки дорівнює: $r$

\nabla_{a} C = - \frac{E^{r}}{a^{L}}

$\nabla_a C = -\frac{E^r}{a^L}$

Узагальнена дивергенція Куллбека - Лейблера

Від сюди .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}} - \sum_{j} (E_{j}^{r}) + \sum_{j} (a_{j}^{L})

$C_{GKL}(W, B, S^r, E^r)=\sum\limits_j E^r_j \log \frac{E^r_j}{a^L_j} -\sum\limits_j(E^r_j) + \sum\limits_j(a^L_j)$

Градієнт цієї функції витрат відносно виходу нейронної мережі та деякої вибірки дорівнює: $r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{a^{L}}

$\nabla_a C = \frac{a^L-E^r}{a^L}$

Відстань Ітакура - Сайто

Також звідси .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} (\frac{E_{j}^{r}}{a_{j}^{L}} - \log \frac{E_{j}^{r}}{a_{j}^{L}} - 1)

$C_{GKL}(W, B, S^r, E^r)= \sum_j \left(\frac {E^r_j}{a^L_j} - \log \frac{E^r_j}{a^L_j} - 1 \right)$

Градієнт цієї функції витрат відносно виходу нейронної мережі та деякої вибірки дорівнює: $r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{{(a^{L})}^{2}}

$\nabla_a C = \frac{a^L-E^r}{\left(a^L\right)^2}$

Де . Іншими словами, просто дорівнює квадратурі кожного елемента . $\left(\left(a^L\right)^2\right)_j = a^L_j \cdot a^L_j$ $\left( a^L\right) ^2$ $a^L$

— об. Філіїда
джерело

Дякуємо за спільний доступ, ви також можете розглянути наступне

— Yannis Assael

у вас є невелика помилка в знаменнику похідною крос-ентропії, воно повинно бути a*(1-a)НЕa*(1+a)

— Amro

Також було б здорово показати функцію втрат пінболу, щоб мінімізувати квантили помилок, а не середню помилку. Дуже застосовується в системах підтримки прийняття рішень.

— Рікардо Крус

де я можу побачити графіки для них?

— coiso

Що стосується функції квадратичної вартості, то слід зазначити, що "середня помилка в квадраті" "максимальна ймовірність" "помилка в квадраті". Автори можуть використовувати ім’я (неправильно) взаємозамінно, але це не одне і те ж.

\neq

$\neq$

\neq

$\neq$

— Джон

Не маю репутації коментувати, але в цих останніх 3 градієнтах є помилки знаків.

У розбіжності KL Це така ж помилка знаку з'являється в узагальненому розбіжності KL.

\begin{aligned} C & = \sum_{j} E_{j} \log (E_{j} / a_{j}) \\ = \sum_{j} E_{j} \log (E_{j}) - E_{j} \log (a_{j}) \\ d C & = - \sum_{j} E_{j} d \log (a_{j}) \\ = - \sum_{j} (E_{j} / a_{j}) d a_{j} \\ \nabla_{a} C & = \frac{- E}{a} \end{aligned}

$\eqalign{ C &= \sum_j E_j\log(E_j/a_j) \cr &= \sum_j E_j\log(E_j) - E_j\log(a_j) \cr\cr dC &= -\sum_j E_j\,\,d\log(a_j) \cr &= -\sum_j (E_j/a_j)\,da_j \cr\cr \nabla_a C &= \frac{-E}{a} \cr\cr }$

На відстані Ітакура-Сайто

\begin{aligned} C & = \sum_{j} (E_{j} / a_{j}) - \log (E_{j} / a_{j}) - 1 \\ = \sum_{j} (E_{j} / a_{j}) - \log (E_{j}) + \log (a_{j}) - 1 \\ d C & = \sum_{j} (- E_{j} / a_{j}^{2}) d a_{j} + d \log (a_{j}) \\ = \sum_{j} (1 / a_{j}) d a_{j} - (E_{j} / a_{j}^{2}) d a_{j} \\ = \sum_{j} (a_{j} - E_{j}) / a_{j}^{2} d a_{j} \\ \nabla_{a} C & = \frac{a - E}{(a)^{2}} \end{aligned}

$\eqalign{ C &= \sum_j (E_j/a_j) - \log(E_j/a_j) - 1 \cr &= \sum_j (E_j/a_j) - \log(E_j) + \log(a_j) -1 \cr\cr dC &= \sum_j (-E_j/a^2_j)\,da_j + d\log(a_j) \cr &= \sum_j (1/a_j)\,da_j - (E_j/a^2_j)\,da_j \cr &= \sum_j (a_j-E_j)/a^2_j\,\,\,da_j \cr\cr \nabla_a C &= \frac{a-E}{(a)^2} \cr }$

— відвертий
джерело