У деяких навчальних посібниках я виявив, що ініціалізація ваги "Xavier" (стаття: Розуміння труднощів дресирування глибоких нейронних мереж ) є ефективним способом ініціалізації ваг нейронних мереж.
Для повністю пов’язаних шарів у цих підручниках було правило:
де - дисперсія ваг для шару, ініціалізованого нормальним розподілом і , - кількість нейронів у батьківському та поточному шарах.
Чи існують подібні правила великого пальця для звивистих шарів?
Я намагаюся зрозуміти, що було б найкраще ініціалізувати ваги згорткового шару. Наприклад, у шарі, де форма ваг (5, 5, 3, 8)
, тож розмір ядра 5x5
, фільтрація трьох вхідних каналів (вхід RGB) та створення 8
функціональних карт ... 3
вважатиметься кількістю вхідних нейронів? А точніше 75 = 5*5*3
, тому що вхідні дані - це 5x5
патчі для кожного кольорового каналу?
Я б прийняв і те, і інше, конкретну відповідь, що роз'яснює проблему, або більш "загальну" відповідь, що пояснює загальний процес пошуку правильної ініціалізації ваг і, переважно, зв'язування джерел.