Чому для обчислення ймовірностей використовується функція softmax, хоча ми можемо розділити кожне значення на суму вектора?

Застосування функції softmax на вектор призведе до "ймовірностей" і значень між і . $0$ $1$

Але ми також можемо розділити кожне значення на суму вектора, що призведе до ймовірностей і значень між і . $0$ $1$

Я читаю відповідь тут, але в ній сказано, що причина полягає в тому, що вона відрізняється, хоча обидві функції відрізняються.

machine-learning neural-networks softmax

— флойд
джерело

Я думаю, що краще, якщо спершу поглянути на логістичну регресію. ваша "мета" - монотонно перетворити на (0,1). Це те, що робить логістична функція. Зауважте, що будь-яка кумулятивна (ймовірнісна) функція розподілу на реальній лінії також працює - див. Регресію пробітів, яка використовує звичайну функцію розподілу.

(- \infty, \infty)

$(-\infty, \infty)$

— seanv507

Відповіді:

Пропонована вами функція має сингулярність, коли сума елементів дорівнює нулю.

Припустимо, ваш вектор . Цей вектор має суму 0, тому поділ не визначено. Тут функція не відрізняється. $[-1, \frac{1}{3}, \frac{2}{3}]$

Крім того, якщо один або декілька елементів вектора негативні, але сума ненульова, ваш результат не є ймовірним.

Припустимо, ваш вектор дорівнює . Він має суму 1, тому застосування вашої функції призводить до , що не є вірогідністю вектора, оскільки в ньому є негативні елементи та елементи, що перевищують 1. $[-1, 0, 2]$ $[-1, 0, 2]$

Розглядаючи ширший погляд, ми можемо мотивувати конкретну форму функції softmax з точки зору розширення бінарної логістичної регресії до випадку трьох чи більше категоричних результатів.

Виконувати такі речі, як взяття абсолютних значень або квадратів, як це пропонується в коментарях, означає, що і мають однакову передбачувану ймовірність; це означає, що модель не визначена . Навпаки, є монотонним і позитивним для всіх дійсних , тому результатом softmax є (1) вектор вірогідності та (2) мультиноміальна логістична модель. $-x$ $x$ $\exp(x)$ $x$

— Sycorax каже, що відновіть Моніку
джерело

Дуже дякую. Ми можемо вирішити обидва питання, поділивши на суму абсолютних значень, правда?

— floyd

Ні. Що станеться, якщо підсумувати абсолютні значення обох моїх прикладів, а потім розділити на цю суму?

— Sycorax каже, що повернеться Моніка

дуже дякую Я зараз це розумію. але ми можемо вирішити це питання, взявши абсолютне значення чисельника або, можливо, обчисливши для кожного значення у векторі. Я не намагаюся бути впертим, мені просто дивно, що люди винайшли складну функцію, хоча є більш прості для обчислення ймовірностей. Я не знаю багато математики, тому, можливо, є й інші математичні властивості

x_{i}^{2} / s u m (X^{2})

$x_i^2/sum(X^2)$

— floyd

Ваша пропозиція все ще не відповідає . Додаткові причини функції softmax пов'язані з її властивостями як узагальнення бінарної логістичної регресії до випадку множинних результатів. У нас є низка ниток про це, таких як stats.stackexchange.com/questions/349418/…

[0, 0, 0]

$[0,0,0]$

— Sycorax розповідає, що

На додаток до точки Sycorax, застосовуючи абоне має бажаної властивості, що зменшення векторного елемента завжди зменшить його ймовірний внесок. Скорочення негативних елементів збільшило б їх внесок. має приємну властивість, що його вихід є позитивним для всіх реальних входів і є монотонним для всієї реальної лінії.

x_{i}^{2} / \sum_{j} x_{j}^{2}

$x_i^2 / \sum_j x_j^2$

| x_{i} | / \sum_{j} | x_{j} |

$|x_i| / \sum_j |x_j|$

\exp (x)

$\exp(x)$

— Bridgeburners

Softmax має два компоненти:

Перетворіть компоненти в e ^ x. Це дозволяє нейронній мережі працювати з логарифмічними ймовірностями замість звичайних ймовірностей. Це перетворює загальну операцію множення ймовірностей на додавання, що набагато природніше для лінійної алгебри на основі нейронних мереж.
Нормалізуйте їх суму до 1, оскільки це загальна ймовірність, яка нам потрібна.

Одним із важливих наслідків цього є те, що теорема Байєса є дуже природною для такої мережі, оскільки це просто множення ймовірностей, нормалізованих знаменником.

Тривіальний випадок одношарової мережі з активацією softmax еквівалентний логістичній регресії.

Окремий випадок двокомпонентного софтмаксу еквівалентний активації сигмоїдів, яка, таким чином, популярна, коли існує лише два класи. У класифікації класів багато класів софтмакс використовується, якщо класи взаємно виключають, а сигмоїди, що залежать від компонентів, використовуються, якщо вони незалежні.

— CodesInChaos
джерело