Чи вивчають нейронні мережі функцію чи функцію густини ймовірностей?


19

Питання може звучати дещо дивно, оскільки я новачок у статистичних висновках та нейронних мережах.

Коли в задачах класифікації за допомогою нейронних мереж ми говоримо, що ми хочемо вивчити функцію f яка відображає простір входів x , на простір виходів y :

f(x;θ)=y

Чи підходимо ми параметри ( ) для моделювання нелінійної функції або для моделювання функції щільності ймовірностей?θ

Я не знаю, як краще написати питання. Я прочитав кілька разів обидві речі (функція щільності ймовірності або функція просто так), тому моя плутанина.

Відповіді:


15

Строго кажучи, нейронні мережі підходять до нелінійної функції.

Їх можна інтерпретувати як відповідність функції щільності ймовірності, якщо обрані відповідні функції активації та дотримуються певні умови (Значення повинні бути позитивними та 1 тощо). Але це питання про те, як ви вирішите інтерпретувати їх результати, а не те, що вони насправді роблять. Під капотом вони все ще є нелінійними оцінками функцій, які ви вирішили застосувати до конкретної проблеми оцінки PDF.


3
@sdiabr насправді ви б не використовували поріг, якби ви хотіли, щоб мережа імітувала pdf - оскільки у pdf можуть бути інші значення, крім 1 та 0. З порогом він стає простим класифікатором.
Скандер Х.

2
Правильний спосіб цього вирішити, полягає в тому, що визначення порогових значень є проблемою, зовнішньою для того, щоб дізнатися з мережі. Недотримання цього розрізнення спричиняє багато проблем у застосуванні МЛ до реальних проблем.
Метью Друрі

1
Так добре, я розумію. Тож забувши про порогове значення, тоді я буду моделювати PDF? Я думаю, що я заплутався в пороговому значенні, тому що я читав щось про моделювання розподілу Bernouilli. Однак без порогу це вже Берноїллі, правда? У випадку, якщо у нас є лише один вихідний вузол з функцією активації
сигмоїдів, який виведе

1
Так, я знову заплутався, дякую @CagdasOzgenc. Спробуємо ще раз: За допомогою сигмоїдної функції у вихідному шарі ми безпосередньо моделюємо pdf, правда? після будь-якого розподілу він може навчитися слідувати.
sdiabr

2
Однак ви не дізнаєтесь про розподіл ймовірності невідомих коефіцієнтів, таким чином, ви не дізнаєтесь про задній прогнозний розподіл.
Зрив рівноваги

11

Як правило, нейронні мережі не використовуються для моделювання повної щільності ймовірності. Їх увага полягає в тому, щоб просто моделювати середнє значення розподілу (або в детермінованій ситуації просто нелінійну функцію). Тим не менш, дуже можливо моделювати повну щільність ймовірності за допомогою нейронних мереж.

Один з простих способів зробити це, наприклад, для випадку Гаусса - це випромінювати середнє значення з одного виходу та відхилення від іншого виходу мережі, а потім мінімізувати функціонувати як частина навчальний процес замість загальної помилки у квадраті. Це максимальна ймовірність процедури нейронної мережі.logN(y|x;μ,σ)

Після того, як ви тренуєте цю мережу щоразу, коли ви підключаєте значення як вхід, це дасть вам μ і σ , тоді ви можете підключити весь триплет y , μ , σ до щільності f ( y | x ) N ( μ , σ ) для отримання значення щільності для будь-якого y, який вам подобається. На цьому етапі ви можете вибрати, яке значення y використовувати на основі реальної функції втрати домену. Слід пам’ятати, що для μ активація виходу повинна бути необмеженою, щоб ви могли випромінювати -xμσy,μ,σf(y|x)N(μ,σ)yyμ до + inf, тоді як σ має бути позитивною лише активацією.inf+infσ

Взагалі, якщо це не детермінована функція, яку ми виконуємо, стандартне навчання з втратами в квадраті, яке використовується в нейронних мережах, є майже тією ж процедурою, яку я описав вище. Під капотом розподіл передбачається неявно без турботи про сг , і якщо ви уважно вивчити - л про г N ( у | х , μ , σ ) дає вираз для квадрата втрати ( Втрата функція Гауссового оцінювача максимальної ймовірності ). Однак у цьому сценарії замість yGaussianσlogN(y|x;μ,σ)yзначення на ваш смак, ви заважаєте випромінювати щоразу, коли отримуєте нове значення x .μx

Для класифікації виведенням буде розподіл замість G a u s s i a n , який має єдиний параметр для випромінювання. Як зазначено в іншій відповіді, цей параметр знаходиться між 0 і 1, так що активація виходу повинна бути відповідно. Це може бути логістична функція або щось інше, що досягає тієї ж мети.BernoulliGaussian01

Більш досконалий підхід - це мережі Бішопа з щільністю сумішей. Ви можете прочитати про це у часто посилається на статті тут:

https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf


Ой, ти перебив мене на це 😀 Я хотів навести MDN-адреси єпископа ... Є також інший спосіб отримати Нейронні мережі для виведення pdfs, що, звичайно, байєсівська парадигма. Я на це напишу відповідь.
DeltaIV

Ще один цікавий документ про мережу щільності сумішей, який використовується для прогнозування умов серфінгу: icml.cc/Conferences/2005/proceedings/papers/…
Меттью Друрі

Чи слід змінити "всю триплету y, μ, σ" на "всю триплету x, μ, σ"?
moh

@moh ні. x задано і не з’явиться у щільності.
Cagdas Ozgenc

1

Моя відповідь, що не вражає, полягає в тому, що у найбільш вражаючих практичних програмах (тих, де вони отримують найбільше висвітлення у ЗМІ), наприклад, це не є ні функцією, ні ймовірністю. Вони реалізують стохастичне прийняття рішень.

На поверхні схоже, що NN просто підходить до функції, в черзі посилання універсального наближення . У деяких випадках, коли використовуються певні функції активації та певні припущення, такі як помилки Гаусса, або коли ви читаєте документи в байєсівських мережах, виявляється, що NN може виробляти розподіл ймовірностей.

Однак це все просто до речі. Те, що NN призначене зробити, - це моделювати процес прийняття рішень. Коли автомобіль приводиться в рух AI, його NN не намагається обчислити ймовірність того, що у нього є об’єкт перед собою, то враховуючи, що існує об'єкт, який обчислює ймовірність того, що це людина. Він також не обчислює відображення сенсорних входів на різні види об'єктів. Ні, NN повинен прийняти рішення на основі всього входу, щоб рухатись збоку або продовжувати рух. Це не обчислення ймовірності, це говорить автомобілю, що робити.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.