Очікуване значення Гауссової випадкової величини, перетвореної з логістичною функцією


10

І логістична функція, і стандартне відхилення зазвичай позначаються . Я буду використовувати і для стандартного відхилення.σσ(x)=1/(1+exp(x))s

У мене є логістичний нейрон зі випадковим входом, середнє значення і стандартне відхилення я знаю. Я сподіваюся, що різницю від середньої можна добре оцінити деяким гауссовим шумом. Отже, з невеликим зловживанням нотацією, припустимо, що він створює . Яке очікуване значення ? Стандартне відхилення може бути великим або малим по порівнянні з або . Гарне наближення закритої форми до очікуваного значення було б майже таким же добрим, як рішення закритої форми.μsσ(μ+N(0,s2))=σ(N(μ,s2))σ(N(μ,s2))sμ1

Я не думаю, що рішення закритої форми існує. Це можна розглядати як згортку, і характерна функція для логістичної щільності відома ( ), але я не впевнений, наскільки це допомагає. Зворотний символічний калькулятор не змогло розпізнати щільність при згортку щільності логістичного дистрибутива і стандартного нормального розподілу, який наводить на думку , але не доводить , що не існує простого елементарний інтеграл. Більш обґрунтовані докази: У деяких роботах щодо додавання вхідного шуму Гаусса до нейронних мереж з логістичними нейронами документи також не давали виразів закритої форми.πt csch πt0

Це питання виникло при спробі зрозуміти помилку в наближенні середнього поля в машинах Больцмана.

Відповіді:


5

Далі - це те, що я закінчив:

Напишіть де . Ми можемо використовувати розширення серії Taylor.X N ( 0 , s 2 )σ(N(μ,s2))=σ(μ+X)XN(0,s2)

σ(μ+X)=σ(μ)+Xσ(μ)+X22σ(μ)+...+Xnn!σ(n)(μ)+...

E[σ(μ+X)]=E[σ(μ)]+E[Xσ(μ)]+E[X22σ(μ)]+...=σ(μ)+0+s22σ(μ)+0+3s424σ(4)(μ)+...+s2k2kk!σ(2k)(μ)...

Є проблеми конвергенції. Логістична функція має полюс, де , тому при , непарне. Розбіжність - це не те саме, що префікс є марним, але це наближення рядів може бути недостовірним, коли є значущим.exp(x)=1x=kπikP(|X|>μ2+π2)

Оскільки , ми можемо записати похідні як многочлени в . Наприклад, і . Коефіцієнти пов'язані з OEIS A028246 .σ(x)=σ(x)(1σ(x))σ(x)σ(x)σ=σ3σ2+2σ3σ=σ7σ2+12σ36σ4


4

У вас тут є випадкова змінна, яка слід за розподілом logit-normal (або logistic-normal) (див. Wikipedia ), тобто . Моменти розподілу logit-normal не мають аналітичних рішень.logit[x]N(μ,s2)

Але, звичайно, їх можна отримати за допомогою чисельної інтеграції. Якщо ви використовуєте R, є пакет logitnorm, у якому є все необхідне. Приклад:

install.packages("logitnorm")
library(logitnorm)
momentsLogitnorm(mu=1, sigma=2)

Це дає:

> momentsLogitnorm(mu=1, sigma=2)
      mean        var 
0.64772644 0.08767866

Отже, є навіть функція зручності, яка безпосередньо дасть вам середнє значення та дисперсію.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.