Як правило, нейронні мережі не використовуються для моделювання повної щільності ймовірності. Їх увага полягає в тому, щоб просто моделювати середнє значення розподілу (або в детермінованій ситуації просто нелінійну функцію). Тим не менш, дуже можливо моделювати повну щільність ймовірності за допомогою нейронних мереж.
Один з простих способів зробити це, наприклад, для випадку Гаусса - це випромінювати середнє значення з одного виходу та відхилення від іншого виходу мережі, а потім мінімізувати функціонувати як частина навчальний процес замість загальної помилки у квадраті. Це максимальна ймовірність процедури нейронної мережі.−logN(y|x;μ,σ)
Після того, як ви тренуєте цю мережу щоразу, коли ви підключаєте значення як вхід, це дасть вам μ і σ , тоді ви можете підключити весь триплет y , μ , σ до щільності f ( y | x ) ∼ N ( μ , σ ) для отримання значення щільності для будь-якого y, який вам подобається. На цьому етапі ви можете вибрати, яке значення y використовувати на основі реальної функції втрати домену. Слід пам’ятати, що для μ активація виходу повинна бути необмеженою, щоб ви могли випромінювати -xμσy,μ,σf(y|x)∼N(μ,σ)yyμ до + inf, тоді як σ має бути позитивною лише активацією.−inf+infσ
Взагалі, якщо це не детермінована функція, яку ми виконуємо, стандартне навчання з втратами в квадраті, яке використовується в нейронних мережах, є майже тією ж процедурою, яку я описав вище. Під капотом розподіл передбачається неявно без турботи про сг , і якщо ви уважно вивчити - л про г N ( у | х , μ , σ ) дає вираз для квадрата втрати ( Втрата функція Гауссового оцінювача максимальної ймовірності ). Однак у цьому сценарії замість yGaussianσ−logN(y|x;μ,σ)yзначення на ваш смак, ви заважаєте випромінювати щоразу, коли отримуєте нове значення x .μx
Для класифікації виведенням буде розподіл замість G a u s s i a n , який має єдиний параметр для випромінювання. Як зазначено в іншій відповіді, цей параметр знаходиться між 0 і 1, так що активація виходу повинна бути відповідно. Це може бути логістична функція або щось інше, що досягає тієї ж мети.BernoulliGaussian01
Більш досконалий підхід - це мережі Бішопа з щільністю сумішей. Ви можете прочитати про це у часто посилається на статті тут:
https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf