Чому ініціалізацію ваг і ухилів слід вибирати близько 0?


13

Я читав це:

Для тренування нашої нейронної мережі ми ініціалізуємо кожен параметр W (l) ijWij (l) та кожний b (l) ibi (l) до малого випадкового значення біля нуля (скажімо, згідно з Normal (0, ϵ2) Normal (0 , ϵ2) розподіл для деяких малих ϵϵ, скажімо, 0,01)

із навчальних посібників зі Стенфордського глибокого вивчення у 7-му пункті в Алгоритмі зворотного розповсюдження

Що я не розумію, це чому ініціалізація ваги або зміщення повинна бути приблизно 0 ?

Відповіді:


11

Якщо припустити досить розумну нормалізацію даних, очікування ваг має бути нульовим або близьким до нього. Тоді може бути розумним встановити всі початкові ваги до нуля, тому що додатна початкова вага повинна піти далі, якщо вона насправді має бути негативною вагою, і навпаки. Це, однак, не працює. Якщо всі ваги однакові, всі вони матимуть однакову помилку, і модель нічого не навчиться - джерела асиметрії між нейронами немає.

Натомість ми могли б зробити ваги дуже близькими до нуля, але зробити їх різними, ініціалізуючи їх на невеликі, ненульові числа. Це те, що пропонується у підручнику, який ви пов’язали. Він має ту саму перевагу ініціалізації, що відповідає нулю, в тому, що вона близька до значення очікування "найкращого здогаду", але симетричність також була достатньо порушена для роботи алгоритму.

Такий підхід має додаткові проблеми. Не обов'язково правда, що менші числа будуть працювати краще, особливо якщо нейронна мережа є глибокою. Градієнти, обчислені в розмноженні, пропорційні вагам; дуже невеликі ваги призводять до дуже малих градієнтів і можуть призвести до того, що мережа займе багато, набагато довше, щоб тренуватися або ніколи не закінчувати.

Інша потенційна проблема полягає в тому, що розподіл виходів кожного нейрона при використанні значень випадкової ініціалізації має дисперсію, яка збільшується при більшій кількості входів. Загальним додатковим кроком є ​​нормалізація дисперсії виходу нейрона до 1 шляхом ділення ваг на де - кількість входів у нейрон. Отримані ваги зазвичай розподіляються міжsqrt(d)d[1d,1d]


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.