Наскільки глибокий зв’язок між функцією softmax в ML та розподілом Больцмана в термодинаміці?


12

Функція softmax, яка зазвичай використовується в нейронних мережах для перетворення реальних чисел у ймовірності, - це та сама функція, що і розподіл Больцмана, розподіл ймовірності за енергіями для ансамблю частинок у тепловій рівновазі при заданій температурі T в термодинаміці.

Я бачу деякі чіткі евристичні причини, чому це практично:

  • Незалежно від того, чи є вхідні значення негативними, softmax видає позитивні значення, які дорівнюють одному.
  • Це завжди диференційоване, що зручно для розмноження.
  • У нього є параметр 'температура', який керує тим, наскільки поблажливою повинна бути мережа до малих значень (коли Т дуже велика, всі результати однаково ймовірні, коли дуже малі, вибирається лише значення з найбільшим входом).

Чи функція Больцмана використовується лише як практична програма з практичних причин, чи існує більш глибокий зв’язок з термодинамікою / статистичною фізикою?


1
Я не бачу, чому це привертає близькі голоси - це цілком розумне питання.
Метт Крауз

2
+1 до @ MattKrause - NN, безумовно, є темою, як це, на мою думку, - статистична фізика.
Шон Великдень

Я бачу, наскільки питання є більш "відкритим", ніж більшість запитань ТА, в тому сенсі, що я не шукаю рішення проблеми, а більше загальних знань. Однак я не міг придумати кращого місця, щоб його запитати, або більш конкретного способу його запитати.
ахура

Відповіді:


3

Наскільки мені відомо, немає більш глибокої причини, окрім того, що багато людей, які приймали АНН за межами Перцептрону, були фізиками.

Окрім згаданих переваг, цей конкретний вибір має і більше переваг. Як вже було сказано, він має єдиний параметр, який визначає поведінку на виході. Що в свою чергу можна оптимізувати або налаштувати саме по собі.

Коротше кажучи, це дуже зручна і добре відома функція, яка досягає певної «регуляризації», в тому сенсі, що навіть найбільші вхідні значення обмежені.

Звичайно, існує багато інших можливих функцій, які відповідають тим же вимогам, але вони менш відомі у світі фізики. І більшу частину часу їх використовувати складніше.


2

функція softmax також використовується в моделюванні дискретного вибору; вона така ж, як і модель logit, якщо ви припускаєте, що функція корисності пов'язана з кожним класом, а функція корисності дорівнює виходу нейронної мережі + термін помилки, наступний за Gumbel розподілу, ймовірність приналежності до класу дорівнює функції softmax з нейронною мережею як вхід. Дивіться: https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf

існують альтернативи моделі logit, такі як пробітна модель, де передбачається, що термін помилки відповідає стандартному нормальному розподілу, що є кращим припущенням. однак, ймовірність буде нерозв'язною і вирішується обчислювально дорого, тому не використовується в нейромережі

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.