Мотивація сигмоїдних вихідних одиниць у нейронних мережах, починаючи з ненормалізованих ймовірностей журналу, лінійних у

12

Передумови: Я вивчаю розділ 6 «Глибоке навчання» Іона Гудфллоу та Йошуа Бенджо та Аарона Курвіля. У розділі 6.2.2.2 (сторінки 182 з 183, які можна переглянути тут ) використання сигмоїдів для виведення $P(y=1|x)$ мотивовано.

Підсумовуючи частину матеріалу, вони дозволяють

z = w^{T} h + b

$z = w^Th+b$ бути вихідним нейроном до застосування активації, де

h

$h$ - вихід попереднього прихованого шару,

w

$w$ - вектор ваг, а

b

$b$ - скалярний зміщення. Вхідний вектор позначається

x

$x$ (що

h

$h$ - функція), а вихідне значення позначається

y = ϕ (z)

$y=\phi(z)$ де

ϕ

$\phi$ - сигмоподібна функція. Книга хоче визначити розподіл ймовірностей по

y

$y$ використовуючи значення

z

$z$ . З другого абзацу сторінки 183:

Ми опускаємо на даний момент залежність від $x$ щоб обговорити, як визначити розподіл ймовірностей по $y$ використовуючи значення $z$ . Сигмоїд можна мотивувати, побудувавши ненормалізований розподіл ймовірностей $\tilde P(y)$ , який не дорівнює 1. Потім ми можемо розділити на відповідну константу для отримання дійсного розподілу ймовірності. Якщо ми почнемо з припущення, що ненормалізовані ймовірності журналу є лінійними в $y$ та $z$ , ми можемо експоненціювати для отримання ненормалізованих ймовірностей. Потім нормалізуємо, щоб побачити, що це дає розподіл Бернуллі, керований сигмоїдним перетворенням z:
$\begin{aligned} \log \tilde{P} (y) & = y z \\ \tilde{P} (y) & = \exp (y z) \\ P (y) & = \frac{\exp (y z)}{\sum_{y^{'} = 0}^{1} \exp (y^{'} z)} \\ P (y) & = ϕ ((2 y - 1) z) \end{aligned}$ $\begin{align} \log\tilde P(y) &= yz \\ \tilde P(y) &= \exp(yz) \\ P(y) &= \frac{\exp(yz)}{\sum_{y'=0}^1 \exp(y'z) } \\ P(y) &= \phi((2y-1)z) \end{align}$

Запитання: Мене плутають дві речі, особливо перша:

Звідки походить початкове припущення? Чому ненормалізована ймовірність журналу лінійна в та ? Чи може хтось подати мені якусь інформацію про те, як автори почали з ? $y$ $z$ $\log\tilde P(y) = yz$
Як слідує останній рядок?

neural-networks deep-learning

— HBeel
джерело

8

Для можливі два результати . Це дуже важливо, оскільки ця властивість змінює значення множення. Можливі два випадки: $y \in \{0, 1\}$

\begin{aligned} \log \tilde{P} (y = 1) & = z \\ \log \tilde{P} (y = 0) & = 0 \end{aligned}

$\begin{align} \log\tilde P(y=1) &= z \\ \log\tilde P(y=0) &= 0 \\ \end{align}$

Крім того, важливо зауважити, що ненормалізована логарифмічна ймовірність при є постійною. Ця властивість випливає з основного припущення. Застосування будь-якої детермінованої функції до постійного значення дасть постійний вихід. Ця властивість спростить остаточну формулу, коли ми зробимо нормалізацію за всіма можливими ймовірностями, оскільки нам просто потрібно знати лише ненормалізовану ймовірність для а для це завжди константа. А оскільки вихід з мережі з ненормалізованою логарифмічною ймовірністю нам буде потрібно лише один вихід, тому що інший вважається постійним. $y=0$ $y=1$ $y=0$

Далі ми застосовуємо експоненцію до ненормалізованої ймовірності логарифму, щоб отримати ненормалізовану ймовірність.

\begin{aligned} \tilde{P} (y = 1) & = e^{z} \\ \tilde{P} (y = 0) & = e^{0} = 1 \end{aligned}

$\begin{align} \tilde P(y=1) &= e ^ z \\ \tilde P(y=0) &= e ^ 0 = 1 \end{align}$

Далі ми просто нормалізуємо ймовірності, розділивши кожну ненормалізовану ймовірність на суму всіх можливих ненормалізованих ймовірностей.

\begin{aligned} P (y = 1) = \frac{e^{z}}{1 + e^{z}} \\ P (y = 0) = \frac{1}{1 + e^{z}} \end{aligned}

$\begin{align} P(y=1) = \frac{e ^ z}{1 + e ^ z} \\ P(y=0) = \frac{1}{1 + e ^ z} \end{align}$

Нас цікавить лише , адже саме це означає ймовірність сигмоїдної функції. Отримана функція не схожа на сигмоподібні на перший погляд, але вони рівні і їх легко показати. $P(y=1)$

\begin{aligned} P (y = 1) = \frac{e^{x}}{1 + e^{x}} = \frac{1}{\frac{e^{x} + 1}{e^{x}}} = \frac{1}{1 + \frac{1}{e^{x}}} = \frac{1}{1 + e^{- x}} \end{aligned}

$\begin{align} P(y=1) = \frac{e ^ x}{1 + e ^ x} = \frac{1}{\frac{e ^ x + 1}{e ^ x}} = \frac{1}{1 + \frac{1}{e ^ x}} = \frac{1}{1 + e ^ {-x}} \end{align}$

Останнє твердження спочатку може бути заплутаним, але це лише спосіб показати, що ця кінцева функція ймовірності - сигмоїда. Значення перетворює в і в (або можна сказати, що це було б без змін). $(2y−1)$ $0$ $-1$ $1$ $1$

P (y) = σ ((2 y - 1) z) = {\begin{cases} σ (z) = \frac{1}{1 + e^{- z}} = \frac{e^{z}}{1 + e^{z}} & when y = 1 \\ σ (- z) = \frac{1}{1 + e^{- (- z)}} = \frac{1}{1 + e^{z}} & when y = 0 \end{cases}

$P(y) = \sigma((2y - 1)z) = \begin{cases} \sigma(z) = \frac{1}{1 + e ^ {-z}} = \frac{e ^ z}{1 + e ^ z} & \text{when } y = 1 \\ \sigma(-z) = \frac{1}{1 + e ^ {-(-z)}} = \frac{1}{1 + e ^ z} & \text{when } y = 0 \\ \end{cases}$

Як ми бачимо, це лише спосіб показати співвідношення між і $\sigma$ $P(y)$

— тощо
джерело

"Крім того, важливо помітити, що ненормалізована логарифмічна ймовірність для

є постійною. Ця властивість випливає з основного припущення." Припущення полягає в тому, що ми вже вирішили, що

?

y = 0

$y=0$

y = 1

$y=1$

— HBeel

Я думаю, що моя плутанина виникла з того, що сигмоїд дає ймовірність моделі

незалежно від фактичної мітки. Дякую!

y = 1

$y=1$

— HBeel

Не майте на увазі бути товстими тут, але як

лінійно у

та

. Я б очікував щось із форми

. Я усвідомлюю, що

у творі

дасть суму, яка наблизить мене до лінійності, але це, здається, не є прямим від того, що заявив автор.

y \times z

$y\times z$

y

$y$

z

$z$

a y + b z + c

$ay + bz + c$

\log

$\log$

y z

$yz$

— зебулон

Я бачу, це насправді цікаве питання. Я не звернув уваги на цю заяву, коли читав питання вперше. Зараз це дивно виглядає і для мене. Одна проблема полягає в тому, що y двійкова змінна, і я не впевнений, як перевірити властивості лінійної функції за цих обставин. Я думаю, це буде сенс, якщо ви задасте окремі запитання, можливо, хтось може вам пояснити, чому це написано таким чином.

— itdxer

2

Мені також здається, що цей фрагмент книги є складним для наслідування, і вищевказана відповідь itdxer заслуговує на досить багато часу, щоб зрозуміти також того, хто недостатньо добре володіє імовірностями та математичним мисленням. Однак я зробив це, прочитавши відповідь назад, так що почніть з сигмоїди z

\begin{aligned} P (y = 1) = \frac{e^{z}}{1 + e^{z}} = \frac{1}{1 + e^{- z}} \end{aligned}

$\begin{align} P(y=1) = \frac{e ^ z}{1 + e ^ z} = \frac{1}{1 + e ^ {-z}} \end{align}$

і спробуйте перейти до.

\begin{aligned} \log \tilde{P} (y) & = y z \end{aligned}

$\begin{align} \log\tilde P(y) &= yz \end{align}$

Тоді є сенс, чому вони почали пояснення з yz - це за конструкцією, як і остаточне

\begin{aligned} σ ((2 y - 1) z) \end{aligned}

$\begin{align} \sigma((2y-1)z) \end{align}$

за побудовою дозволяє отримати -1 для y = 0 і 1 для y = 1, які є єдиними можливими значеннями y при Бернуллі.

— Якуб Юрек
джерело

0

Ось більш формальне формулювання, яке сподобається тим, хто має мірико-теоретичне походження.

$Y$ $P_Y$ $y\in \{0,1\}$ $P_Y(y)=P(Y=y)$ $\tilde P_Y$

У нас є наступний ланцюжок наслідків:

\begin{aligned} \log {\tilde{P}}_{Y} (y) = y z & ⟹ {\tilde{P}}_{Y} (y) = \exp (y z) \\ ⟹ P_{Y} (y) = \frac{e^{y z}}{e^{0 \cdot z} + e^{1 \cdot z}} = \frac{e^{y z}}{1 + e^{z}} \\ ⟹ P_{Y} (y) = y \frac{e^{z}}{1 + e^{z}} + (1 - y) \frac{1}{1 + e^{z}} \\ ⟹ P_{Y} (y) = y σ (z) + (1 - y) σ (- z) \\ ⟹ P_{Y} (y) = σ ((2 y - 1) z) \end{aligned}

$\begin{aligned} \log \tilde P_Y(y)=yz &\implies \tilde P_Y(y) = \exp(yz)\\ &\implies P_Y(y) = \frac{e^{yz}}{e^{0\cdot z}+e^{1\cdot z}}=\frac{e^{yz}}{1+e^{ z}}\\ &\implies P_Y(y) =y\frac{e^{z}}{1+e^{ z}} + (1-y)\frac{1}{1+e^{ z}}\\ &\implies P_Y(y) =y\sigma(z) + (1-y)\sigma(-z)\\ &\implies P_Y(y) = \sigma((2y-1)z) \end{aligned}$

$\{0,1\}$ $\{-1,1\}$

— Габріель Ромон
джерело