Як слід ініціалізувати і регулювати упередження?


13

Я прочитав пару статей про ініціалізацію ядра, і багато робіт згадують, що вони використовують регуляризацію ядра L2 (часто з ).λ=0.0001

Хтось робить щось інше, ніж ініціалізувати зміщення з постійним нулем і не регулювати його?

Папери ініціалізації ядра

Відповіді:


15

З приміток Stanford CS231N ( http://cs231n.github.io/neural-networks-2/ ):

Ініціалізація упереджень. Можливо і загально ініціалізувати ухили до нуля, оскільки розрив асиметрії забезпечується невеликими випадковими числами у вагах. Для нелінійностей ReLU деякі люди люблять використовувати малі постійні значення, такі як 0,01, для всіх ухилів, оскільки це забезпечує, що всі блоки ReLU спрацьовують на початку і, отже, отримують і поширюють деякий градієнт. Однак незрозуміло, чи це забезпечує послідовне вдосконалення (насправді, деякі результати вказують на те, що це гірше), і звичайніше просто використовувати ініціалізацію 0 зміщення.

У LSTM зазвичай ініціалізувати ухили до 1 - див., Наприклад, http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.