Гіперплани оптимально класифікують дані, коли входи умовно незалежні - чому?


10

У статті під назвою " Глибоке навчання та принцип інформації " автори вказують у розділі II А) наступне:

Одиничні нейрони класифікують лише лінійно відокремлювані входи, оскільки вони можуть реалізовувати лише гіперплани у своєму вхідному просторі . Гіперплани можуть оптимально класифікувати дані, коли входи є умовнонезалежними.у=шгод+б

Щоб показати це, вони отримують наступне. Використовуючи теорему Байєса, вони отримують:

p(у|х)=11+ехp(-логp(х|у)p(х|у')-логp(у)p(у')) (1)

Де - вхід, - клас, а - передбачуваний клас (я припускаю, не визначено). Продовжуючи, вони заявляють, що:хуу'у'

p(х|у)p(х|у')=j=1N[p(хj|у)p(хj|у')]нp(хj) (2)

Де розмірність вхідного і я не впевнений , що (знову ж , як не визначені). Розглядаючи сигмоїдальний нейрон, за допомогою функції сигмоїдної активації і попередньої активації , після вставки (2) в (1) отримуємо оптимальні значення ваги і , коли вхідні значення .Nнσ(у)=11+ехp(-у)уwj=logp(xj|y)p(xj|y)b=logp(y)p(y)hj=np(xj)

Тепер до моїх запитань. Я розумію, як вставлення (2) у (1) призводить до оптимальної ваги та вхідних значень . Я не розумію, однак, це:w,b,год

  1. Як (1) виведений за допомогою теореми Байєса?
  2. Як походить (2)? Що таке ? У чому сенс цього? Я припускаю, що це має щось спільне з умовною незалежністюн
  3. Навіть якщо розміри х є умовно незалежними, як можна констатувати, що він дорівнює його масштабній ймовірності? (тобто як ви можете вказати ?)годj=нp(хj)

EDIT: Змінна є змінною двійкового класу. З цього я припускаю, що - клас "інший". Це вирішило б питання 1. Чи згодні ви?уу'


Я намагаюся зрозуміти, звідки походить eq 2, незважаючи на покажчики у відповіді автора статті (Проф. Тішбі). Я розумію ту частину, яка випливає з припущення про умовну незалежність. Однак я не впевнений у показникахнp(хj)- чому це там?
IcannotFixThis

Відповіді:


5

Вибачте про відсутні дані в нашій короткій статті, але ці відносини та зв’язки між тестом коефіцієнта ймовірності та сигмоїдальними нейронами, безумовно, не нові, і їх можна знайти в підручниках (наприклад, Bishop 2006). У нашій роботі "N" - це вхідний вимір, а "n" - розмір тестової вибірки (який фактично переводиться на вхідний SNR з припущенням, що SNR росте як sqrt (n)). Підключення до сигмоїдальної функції здійснюється за правилом Байєса, як заднього класу. Нічого в решті статті та нашої новішої та важливішої роботи з 2017 року насправді не залежить від цього.

Нафталі Тішбі


2
Дякуємо, що тут пояснили це. У цій громаді є звичайною практикою писати повні цитати, щоб зацікавлені читачі могли шукати джерела. Не могли б ви зробити це для Bishop (2006)?
mkt - Відновіть Моніку

5

Це встановлення моделі, де автори використовують спеціальну форму теореми Байєса, яка застосовується, коли у вас є двійкова змінна інтерес. Спочатку вони виводять цю особливу форму теореми Байєса як рівняння (1), а потім вони показують, що умова в рівнянні (2) приводить їх до лінійної форми, визначеної для їх мережі. Важливо зазначити, що останнє рівняння не є похідним від попередніх умов --- швидше, це умова для лінійної форми, яку вони використовують для своєї мережі.


Отримання першого рівняння: Рівняння (1) у статті є лише формою теореми Байєса, яка обрамляє умовну ймовірність інтересу з точки зору стандартної логістичної (сигмоїдної) функції, що діє на функції ймовірності та попередньої. Приймаючиу і у' бути двома двійковими результатами випадкової величини Y, застосовуючи теорему Байєса, дає:

p(y|x)=p(y,x)p(x)=p(x|y)p(y)p(x|y)p(y)+p(x|y)p(y)=11+p(x|y)p(y)/p(x|y)p(y)=11+exp(log(p(x|y)p(y)p(x|y)p(y)))=11+exp(logp(x|y)p(x|y)logp(y)p(y))=logistic(logp(x|y)p(x|y)+logp(y)p(y)).

Використання рівняння (2) як умови для ленарної форми мережі: Як зазначено вище, це рівняння не є чимось, що є результатом попередніх результатів. Скоріше, це достатня умова, що призводить до лінійної форми, яку використовують автори у своїй моделі --- тобто автори кажуть, що якщо це рівняння має місце, то наступні певні результати слід. Введення вхідного вектораx=(x1,...,xN) мають довжину N, якщо рівняння (2) має місце, то прийняття логарифмів обох сторін дає:

журналp(х|у)p(х|у')=журналi=1N[p(хi|у)p(хi|у')]нp(хi)=i=1Nнp(хi)журнал[p(хi|у)p(хi|у')]=i=1Nгодiшi.

Отже, за цієї умови ми отримуємо задню форму:

p(у|х)=логістичний(журналp(х|у)p(х|у')+журналp(у)p(у'))=логістичний(i=1Nгодiшi+б),

яка форма, яку використовують автори у своїй мережі. Це типова форма, постульована авторами у фоновому розділі, перед тим, як вказати рівняння (1) - (2). Папір не визначаєнє в цій моделі налаштування, але, як ви зазначаєте, відповідь професора Тішбі говорить, що це розмір тестового зразка. Що стосується вашого третього запитання, то видається, що вимога рівняння (2) означає, що значення вхне є умовно незалежнимиу.


Професор Тішбі (автор) каже у власній відповіді, що н- розмір тестового зразка. Ось чому я вважав, що eq (2) має набагато багатшу інтерпретацію, ніж просто довільну умову до лінійної форми мережі.
IcannotFixThis

Дякую - я відредагував свою відповідь, щоб відобразити цю додаткову інформацію.
Бен - Відновлення Моніки

4

Для 1

П(ух)=П(у,х)П(х)

=П(у,х)iП(уi,х)

Тепер як уi є двійковим, це стає:

=П(у,х)П(у,х)+П(у',х)

=11+П(у',х)П(у,х)

=11+ехp[-лог П(у,х)П(у',х)]

і звідти його справедливість властивості логарифму дійти до остаточної форми (має бути достатньо зрозумілим до цього моменту, повідомте мені, якщо ні).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.