Чому норма партії має масштаб і зсув, що можна вивчити?


13

Наскільки я розумію, пакетна норма нормалізує всі вхідні характеристики шару до одиничного нормального розподілу, . Середнє значення та дисперсія оцінюються шляхом вимірювання їх значень для поточної міні-партії.N(мк=0,σ=1)мк,σ2

Після нормалізації введення масштабуються та зміщуються на скалярні значення:

х^i'=γх^i+β

(Виправте мене, якщо я тут помиляюся - саме тут я починаю трохи не впевнений.)

γ та є скалярними значеннями, і є пара кожного для кожного пакетного нормованого шару. Вони вивчаються разом з гирями, використовуючи задню частину та SGD.β

Моє запитання, чи не є ці параметри надмірними, оскільки вхідні дані можна масштабувати і зміщувати будь-яким чином вагами в самому шарі. Іншими словами, якщо

у=Wх^'+б

і

х^'=γх^+β

тоді

у=W'х^+б'

де і .W'=Wγб'=Wβ+б

Тож який сенс додавати їх у мережу вже здатні вивчити масштаб і зміни? Або я зовсім не розумію речі?

Відповіді:


13

У книзі « Поглиблене навчання», розділ 8.7.1, є ідеальна відповідь :

Нормалізація середнього та стандартного відхилень одиниці може зменшити виразну силу нейронної мережі, що містить цей блок. Для підтримання виразної сили мережі звичайно замінювати партію прихованих одиничних активацій H на γH + β, а не просто нормованими H. Змінні γ і β - це засвоєні параметри, які дозволяють новій змінній мати будь-яке значення і стандартне відхилення. На перший погляд, це може здатися марним - чому ми встановили середнє значення 0, а потім ввели параметр, який дозволяє повернути його до будь-якого довільного значення β?

Відповідь полягає в тому, що нова параметризація може представляти те саме сімейство функцій входу, що і стара параметризація, але нова параметризація має різну динаміку навчання. У старій параметризації середнє значення H визначалося за допомогою складної взаємодії між параметрами в шарах нижче H. У новій параметризації середнє значення γH + β визначається виключно β. Нову параметризацію набагато простіше вивчити при градієнтному спуску.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.