що робить нейронні мережі нелінійною моделлю класифікації?


18

Я намагаюся зрозуміти математичний зміст нелінійних моделей класифікації:

Я щойно прочитав статтю, яка розповідає про нейронні мережі як нелінійну модель класифікації.

Але я просто розумію, що:

введіть тут опис зображення

Перший шар:

h1=x1wx1h1+x2wx1h2

h2=x1wx2h1+x2wx2h2

Наступний шар

y=bwby+h1wh1y+h2wh2у

Можна спростити до

=b+(x1wx1h1+x2wx1h2)wh1y+(x1wx2h1+x2wx2h2)wh2y

=b+x1(wh1ywx1h1+wx2h1wh2y)+x2(wh1ywx1h1+wx2h2wh2y)

Двошарова нейромережа - це просто проста лінійна регресія

=b+x1W1+x2W2'

Це можна показати будь-якій кількості шарів, оскільки лінійна комбінація будь-якої кількості ваг знову лінійна.

Що насправді робить нейронну сітку нелінійною моделлю класифікації?
Як функція активації вплине на нелінійність моделі?
Ви можете мені пояснити?

Відповіді:


18

Я думаю, ви забули функцію активації у вузлах нейронної мережі, яка нелінійна і зробить всю модель нелінійною.

У вашій формулі не зовсім коректно, де,

h1w1x1+w2x2

але

h1=sigmoid(w1x1+w2x2)

де сигмоїдна функція подібна до цього, sigmoid(x)=11+ex

введіть тут опис зображення

Давайте скористаємося числовим прикладом для пояснення впливу сигмоїдної функції, припустимо, у вас а тоді сигмоїд ( 4 ) = 0,99 . З іншого боку, припустимо, у вас w 1 x 1 + w 2 x 2 = 4000 , сигмоїд ( 4000 ) = 1 і він майже такий самий, як сигмоїд ( 4 ) , який є нелінійним.w1x1+w2x2=4sigmoid(4)=0.99w1x1+w2x2=4000sigmoid(4000)=1sigmoid(4)


Крім того, я думаю, що слайд 14 у цьому підручнику може показати, де ти вчинив неправильно. Для будь ласка, не опут не -7,65, а сигмоїдний ( - 7,65 )H1sigmoid(7.65)

введіть тут опис зображення


1
Як функція активації вплине на нелінійність моделі? Ви можете мені пояснити?
Альваро Жоао

3

Ви вірні, що кілька лінійних шарів можуть бути еквівалентні одному лінійному шару. Як було сказано в інших відповідях, функція нелінійної активації дозволяє класифікувати нелінійну класифікацію. Сказати, що класифікатор нелінійний, означає, що він має нелінійну межу рішення. Межа рішення - це поверхня, яка розділяє класи; класифікатор передбачить один клас для всіх точок на одній стороні межі рішення, а інший клас для всіх точок з іншого боку.

уhwb

y=σ(hw+b)

σ1c

c={0y0.51y>0.5

hW+by

Я раніше говорив, що межа рішення нелінійна, але гіперплан - це саме визначення лінійної межі. Але ми розглядали межу як функцію прихованих одиниць безпосередньо перед виходом. Приховані активації блоку - це нелінійна функція вихідних входів за рахунок попередніх прихованих шарів та їх нелінійних функцій активації. Один із способів думати про мережу - це те, що вона нелінійно відображає дані в деякий простір функцій. Координати в цьому просторі задаються активацією останніх прихованих одиниць. Потім мережа виконує лінійну класифікацію в цьому просторі (в даному випадку логістична регресія). Ми також можемо думати про межу прийняття рішень як функцію від вихідних входів. Ця функція буде нелінійною, як наслідок нелінійного відображення від входів до прихованих активацій одиниць.

У цій публікації в блозі показано кілька приємних фігур та анімації цього процесу.


1

Нелінійність походить від функції сигмоїдної активації 1 / (1 + e ^ x), де x - лінійна комбінація предикторів і ваг, на яку ви посилаєтесь у своєму запитанні.

До речі, межі цієї активації дорівнюють нулю та одиниці, тому що або знаменник стає таким великим, що дріб наближається до нуля, або e ^ x стає таким малим, що частка наближається до 1/1.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.