Отже, останнім часом з'явився документ про нормалізацію шару . Є також реалізація цього на Keras.
Але я пам’ятаю, існують документи під назвою « Нормалізація періодичної партії» (Cooijmans, 2016) та « Batch Normalized Recurrent Neural Networks» (Laurent, 2015). Яка різниця між цими трьома?
Є цей розділ, пов’язаний із роботою, який я не розумію:
Ранкова нормалізація раніше була поширена на періодичні нейронні мережі [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016]. Попередня робота [Cooijmans et al., 2016] передбачає, що найкраща ефективність повторної нормалізації партії виходить шляхом збереження незалежної статистики нормалізації для кожного періоду часу. Автори показують, що ініціалізація параметра посилення в шарі нормалізації періодичної партії до 0,1 суттєво відрізняється в кінцевій продуктивності моделі. Наша робота також пов'язана з нормалізацією ваги [Саліманс і Кінгма, 2016]. При нормалізації ваги замість дисперсії норма L2 вхідних ваг використовується для нормалізації підсумованих входів до нейрона. Застосування або нормалізації ваги, або нормалізації партії, використовуючи очікувану статистику, рівнозначно різній параметризації вихідної нейронної мережі подачі вперед. Повторна параметризація в мережі ReLU вивчалася в SGD Pathnormalized [Neyshabur et al., 2015]. Запропонований нами спосіб нормалізації шару не є повторною параметризацією вихідної нейронної мережі. Нормована модель шару, таким чином, має інші інваріантні властивості, ніж інші методи , які ми вивчимо в наступному розділі