Я знав, що Залишкова мережа (ResNet) зробила звичайну ініціалізацію популярною. У ResNet використовується нормальна ініціалізація He , тоді як перший шар використовує He рівномірну ініціалізацію.
Я переглянув папір ResNet і папір "Deving Deep into Rectifiers" (Папір він ініціалізації), але не знайшов жодної згадки про нормальний init vs uniform init.
Також:
Нормалізація партії дозволяє нам використовувати набагато вищі темпи навчання та бути менш уважними щодо ініціалізації.
У рефераті статті "Норматива партії" йдеться про те, що "Нормалізація партії" дозволяє нам бути менш уважними щодо ініціалізації.
Сам ResNet все ще піклується про те, коли використовувати звичайний init vs uniform init (а не просто йти з рівномірним init).
Тому:
- Коли використовувати (He або Glorot) нормально розподілену ініціалізацію над рівномірною ініціалізацією?
- Які ефекти ініціалізації розподілених у звичайному режимі за допомогою пакетної нормалізації?
Нотатки вбік:
- Це римується використовувати звичайний ініт із Batch Normalization, але я не знайшов жодної газети, яка б підтвердила цей факт.
- Я знав, що ResNet використовує He init над Glorot init, тому що він init краще в глибокій мережі.
- Я зрозумів про Glorot init vs He init .
- Моє запитання стосується нормального проти уніфікованого init.