Нормалізація введення для нейронів ReLU


9

Згідно з "Efficient Backprop" від LeCun et al. (1998), є хорошою практикою нормалізувати всі входи, щоб вони були зосереджені навколо 0 і лежали в межах максимальної другої похідної. Так, наприклад, ми використали [-0,5,0,5] для функції "Tanh". Це допоможе досягти прогресу в просуванні, коли гессея стає стабільнішою.

Однак я не був впевнений, що робити з випрямляючими нейронами, максимальними (0, x). (Також з логістичною функцією відтоді ми хотіли б щось на зразок [0.1,0.9], однак це не зосереджено навколо 0)

Відповіді:


7

Наскільки мені відомо, найближче до того, що ви можете шукати, - це нещодавня стаття дослідників Google: Нормалізація партії: Прискорення глибокого навчання в мережі за рахунок зменшення внутрішнього коваріатного зсуву .

Нормалізація партії

Розглянемо шар лвихід активації ул=f(Wх+б) де f - це нелінійність (ReLU, tanh тощо), W,б - ваги та ухили відповідно та х є міні-пакет даних.

Нормалізація партії (BN) - це наступне:

  1. Стандартизуйте Wх+бмати середній нуль і дисперсію. Ми робимо це через міні-партію. Дозволяєх^ позначають стандартизовані проміжні значення активації, тобто х^ є нормалізованою версією Wх+б.
  2. Застосуйте параметризоване (зрозуміле) афінне перетворення х^γх^+β.
  3. Застосовуйте нелінійність: у^л=f(γх^+β).

Отже, BN стандартизує активізацію "сировинних" (читайте: перш ніж застосувати нелінійність), щоб вони мали середній нуль, дисперсію 1, і тоді ми застосовуємо вивчене афінне перетворення, а потім, нарешті, застосовуємо нелінійність. У певному сенсі ми можемо інтерпретувати це як надання нейромережі можливості дізнатися відповідний параметризований розподіл входу для нелінійності.

Оскільки кожна операція відрізняється, ми можемо навчитися γ,β параметри за допомогою зворотного розповсюдження.

Аффінна мотивація трансформації

Якби ми не здійснили параметризоване афінне перетворення, кожна нелінійність мала б як вхідний розподіл середній нуль, так і дисперсію 1. Це може бути або не бути оптимальним. Зауважте, що якщо середній нуль, розподіл входу дисперсії є оптимальним, то афінне перетворення теоретично може відновити його, встановившиβ дорівнює середній партії і γдорівнює стандартному відхиленню партії. Наявність цього параметризованого афінного перетворення також має додатковий бонус для збільшення представницької спроможності мережі (більш зрозумілі параметри).

Перша стандартизація

Навіщо стандартизувати спочатку? Чому б просто не застосувати афінну трансформацію? Теоретично кажучи, різниці немає. Однак тут може виникнути проблема кондиціонування. Спочатку стандартизуючи значення активації, можливо, стає легше дізнатися оптимальніγ,βпараметри. З мого боку це суто гіпотеза, але в інших останніх сучасних архітектурних структурах були подібні аналоги. Наприклад, в недавньому технічному звіті Microsoft Research Deep Residual Learning for Recognition Image вони фактично засвоїли трансформацію, коли для порівняння використовували трансформацію ідентичності як еталонну чи базову лінію. Співавтори Майкрософт вважали, що наявність цієї посилання чи базової лінії допомогло передумовити проблему. Я не вірю, що занадто надумано дивуватися, чи відбувається щось подібне тут з BN та початковим етапом стандартизації.

Програми BN

Особливо цікавим результатом є те, що, використовуючи Batch Normalization, команда Google змогла отримати мережу Inception Inh, щоб тренуватися на ImageNet та отримувати досить конкурентоспроможні результати. Тан - насичуюча нелінійність, і було важко отримати такі мережі мереж через їх проблему насичення / зникнення градієнтів. Однак, використовуючи пакетну нормалізацію, можна припустити, що мережа змогла засвоїти перетворення, яке відображає вихідні значення активації в режим ненасичення тонких нелінійностей.

Заключні ноти

Вони навіть посилаються на той самий факт Yann LeCun, який ви згадали, як мотивацію для нормалізації партії.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.