Функція softmax, яка зазвичай використовується в нейронних мережах для перетворення реальних чисел у ймовірності, - це та сама функція, що і розподіл Больцмана, розподіл ймовірності за енергіями для ансамблю частинок у тепловій рівновазі при заданій температурі T в термодинаміці.
Я бачу деякі чіткі евристичні причини, чому це практично:
- Незалежно від того, чи є вхідні значення негативними, softmax видає позитивні значення, які дорівнюють одному.
- Це завжди диференційоване, що зручно для розмноження.
- У нього є параметр 'температура', який керує тим, наскільки поблажливою повинна бути мережа до малих значень (коли Т дуже велика, всі результати однаково ймовірні, коли дуже малі, вибирається лише значення з найбільшим входом).
Чи функція Больцмана використовується лише як практична програма з практичних причин, чи існує більш глибокий зв’язок з термодинамікою / статистичною фізикою?