Коли використовувати (He або Glorot) звичайну ініціалізацію над рівномірним init? І які наслідки це стосується пакетної нормалізації?


51

Я знав, що Залишкова мережа (ResNet) зробила звичайну ініціалізацію популярною. У ResNet використовується нормальна ініціалізація He , тоді як перший шар використовує He рівномірну ініціалізацію.

Я переглянув папір ResNet і папір "Deving Deep into Rectifiers" (Папір він ініціалізації), але не знайшов жодної згадки про нормальний init vs uniform init.

Також:

Нормалізація партії дозволяє нам використовувати набагато вищі темпи навчання та бути менш уважними щодо ініціалізації.

У рефераті статті "Норматива партії" йдеться про те, що "Нормалізація партії" дозволяє нам бути менш уважними щодо ініціалізації.

Сам ResNet все ще піклується про те, коли використовувати звичайний init vs uniform init (а не просто йти з рівномірним init).

Тому:

  • Коли використовувати (He або Glorot) нормально розподілену ініціалізацію над рівномірною ініціалізацією?
  • Які ефекти ініціалізації розподілених у звичайному режимі за допомогою пакетної нормалізації?

Нотатки вбік:

  • Це римується використовувати звичайний ініт із Batch Normalization, але я не знайшов жодної газети, яка б підтвердила цей факт.
  • Я знав, що ResNet використовує He init над Glorot init, тому що він init краще в глибокій мережі.
  • Я зрозумів про Glorot init vs He init .
  • Моє запитання стосується нормального проти уніфікованого init.

Відповіді:


34

Насправді нормальне проти рівномірного init здається досить незрозумілим насправді.

Якщо ми посилаємося виключно на документи ініціалізації Глоро та Він , вони обидва використовують аналогічний теоретичний аналіз: вони знаходять хорошу дисперсію для розподілу, з якого виводяться початкові параметри. Ця дисперсія адаптована до функції активації, що використовується, і отримується без явного врахування типу розподілу. Таким чином, їх теоретичні висновки справедливі для будь-якого типу розподілу визначеної дисперсії. Насправді в папері Глоро використовується рівномірний розподіл, тоді як у папері He він обраний гауссом. Єдине "пояснення", яке дається для цього вибору у статті He:

Останні глибокі CNN в основному ініціалізуються випадковими вагами, виведеними з розподілу Гаусса

із посиланням на папір AlexNet . Він справді був випущений трохи пізніше, ніж ініціалізація Глоро, але в цьому немає жодного обґрунтування використання нормального розподілу.

Насправді, в дискусії про трекер з питань Кераса , вони також здаються трохи заплутаними, і в основному це може бути лише питанням уподобань ... (тобто гіпотетично Бенджо вважає за краще рівномірний розподіл, тоді як Гінтон вважає за краще звичайний ...) Одним із обговорень є невеликий орієнтир, який порівнює ініціалізацію Glorot з використанням рівномірного та гауссового розподілу. Врешті-решт, здається, що перемога виграє, але це не зовсім зрозуміло.

В оригінальній статті ResNet написано лише, що вони використовували гауссовий He init для всіх шарів, я не зміг знайти, де написано, що вони використовували рівномірний He init для першого шару. (можливо, ви могли б поділитися посиланням на це?)

Що стосується використання гаусового інітату з Batch Normalization, ну а з BN процес оптимізації менш чутливий до ініціалізації, тому я б лише сказав умову.


Я це неправильно прочитав. Ви маєте рацію, що ResNet взагалі не використовує рівномірної ініціалізації. Я стою виправлений.
rilut

0

1
Будь ласка, уникайте публікацій лише посилань. Будь-яке посилання може через деякий час стати мертвим, і нові читачі не зможуть перевірити відповідь. Ви можете розмістити посилання, але завжди додайте резюме найважливішої частини як текст.
Тасос

@Tasos коментар добре відмічений. Було просто занадто багато інформації, щоб узагальнити, і саме тому я розмістив посилання замість цього, і я розумію, що ваша посилання порушена. Дякую.
rockyne
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.