Чи може нейромережа (наприклад, згорткова нейронна мережа) мати негативні ваги?


13

Чи можливі негативні ваги (після достатньої кількості епох) для глибоких звивистих нейронних мереж, коли ми використовуємо ReLU для всіх шарів активації?


Я не бачу жодної причини, чому вони не можуть бути негативними. Чи є якась причина / спостереження, яке ви маєте на увазі?
Собі

Я просто уявляю процес SGD і думаю про те, чи є негативна вага загальним і можливим.
RockTheStar

Він подумав, що тому, що "вага" нагадує синапси, зв’язки між нейронами, так як ми можемо мати -2 синапси до нейрона ?? Я натрапив сюди після пошуку точно такої самої речі в google ... Я думаю, це все-таки можливо, це може означати врешті-решт відсутній синапс або посилання та "хмелі", щоб дістатись до b з іншої сторони, що віднімається від числення, але я не дуже впевнений, просто думаю
спробуйте

Відповіді:


10

Виправлені лінійні одиниці (ReLU) лише роблять вихід нейронів невід'ємним. Параметри мережі, однак, можуть і стануть позитивними або негативними залежно від даних тренувань.

Ось дві причини, про які я зараз думаю, що виправдовує (інтуїтивно), чому деякі параметри стануть негативними:

  1. регуляризація параметрів (так само зменшення ваги); зміна значень параметрів робить можливим прогнозування, і якщо параметри зосереджені навколо нуля (тобто їх середнє значення дорівнює нулю), то їх норма (що є стандартним регулятором) є низькою.2

  2. хоча градієнти виходу шару відносно параметрів шару залежать від входу в шар (які завжди позитивні, якщо припускати, що попередній шар передає свої виходи через ReLU), однак, градієнт помилки (що приходить від шарів, ближчих до кінцевих шарів виходу) можуть бути позитивними або негативними, що дозволяє SGD робити деякі значення параметрів негативними після наступного кроку градієнта. Більш конкретно, нехай , і позначають вхід, вихід і параметри шару в нейронній мережі. Крім того, нехай - остаточна помилка мережі, викликана деяким навчальним зразком. Градієнт похибки відносно обчислюється якO w E w EIOwEw Ok=O,kEw=(k=1KEOk)Okw ; зауважте, що (див. малюнок нижче):Ok=O,k

введіть тут опис зображення


1

Уявіть, що у вас оптимальні ваги, які всі негативні.

Тепер деяку вхідну змінну . Оптимальна мережа для цього налаштування має ваги перевернутого країв , тому нові ваги є . { x i , y }xi=xi{xi,y}


-3

Якщо ви не використовуєте іншу функцію активації, наприклад, Leaky ReLU. Виправлені ваги шарів після першого не є негативними незалежно від того, скільки епох у тренуванні.


1
Щиро дякую! Чи можете ви пояснити трохи більше детейлів про те, як Leaky ReLU може призвести до негативної ваги?
RockTheStar

Схоже, претензія не відповідає дійсності. Я пройшов навчання в мережі, активованій ReLU, матриці афінного перетворення ("Ws") і зміщення ("b"), які, я вважаю, у цьому питанні вважаються вагами, отримують негативні значення.
їх
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.