Наскільки я розумію, пакетна норма нормалізує всі вхідні характеристики шару до одиничного нормального розподілу, . Середнє значення та дисперсія оцінюються шляхом вимірювання їх значень для поточної міні-партії.
Після нормалізації введення масштабуються та зміщуються на скалярні значення:
(Виправте мене, якщо я тут помиляюся - саме тут я починаю трохи не впевнений.)
та є скалярними значеннями, і є пара кожного для кожного пакетного нормованого шару. Вони вивчаються разом з гирями, використовуючи задню частину та SGD.
Моє запитання, чи не є ці параметри надмірними, оскільки вхідні дані можна масштабувати і зміщувати будь-яким чином вагами в самому шарі. Іншими словами, якщо
і
тоді
де і .
Тож який сенс додавати їх у мережу вже здатні вивчити масштаб і зміни? Або я зовсім не розумію речі?