Як слід ініціалізувати і регулювати упередження?

Я прочитав пару статей про ініціалізацію ядра, і багато робіт згадують, що вони використовують регуляризацію ядра L2 (часто з ). $\lambda = 0.0001$

Хтось робить щось інше, ніж ініціалізувати зміщення з постійним нулем і не регулювати його?

Папери ініціалізації ядра

Мішкін і Матас: Все, що вам потрібно, - це добрий ініт
Ксав'є Глоро та Йошуа Бенджо: Розуміння труднощів у навчанні глибоких нейронних мереж
Він та ін: Поглиблення глибоко в випрямлячі: перевершення продуктивності людського рівня за класифікацією ImageNet

neural-network

— Мартін Тома
джерело

З приміток Stanford CS231N ( http://cs231n.github.io/neural-networks-2/ ):

Ініціалізація упереджень. Можливо і загально ініціалізувати ухили до нуля, оскільки розрив асиметрії забезпечується невеликими випадковими числами у вагах. Для нелінійностей ReLU деякі люди люблять використовувати малі постійні значення, такі як 0,01, для всіх ухилів, оскільки це забезпечує, що всі блоки ReLU спрацьовують на початку і, отже, отримують і поширюють деякий градієнт. Однак незрозуміло, чи це забезпечує послідовне вдосконалення (насправді, деякі результати вказують на те, що це гірше), і звичайніше просто використовувати ініціалізацію 0 зміщення.

У LSTM зазвичай ініціалізувати ухили до 1 - див., Наприклад, http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

— Лукаш Бівальд
джерело