Папір: Яка різниця між нормалізацією шару, Нормалізацією періодичної партії (2016) та Нормалізованою партією RNN (2015)?

Отже, останнім часом з'явився документ про нормалізацію шару . Є також реалізація цього на Keras.

Але я пам’ятаю, існують документи під назвою « Нормалізація періодичної партії» (Cooijmans, 2016) та « Batch Normalized Recurrent Neural Networks» (Laurent, 2015). Яка різниця між цими трьома?

Є цей розділ, пов’язаний із роботою, який я не розумію:

Ранкова нормалізація раніше була поширена на періодичні нейронні мережі [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016]. Попередня робота [Cooijmans et al., 2016] передбачає, що найкраща ефективність повторної нормалізації партії виходить шляхом збереження незалежної статистики нормалізації для кожного періоду часу. Автори показують, що ініціалізація параметра посилення в шарі нормалізації періодичної партії до 0,1 суттєво відрізняється в кінцевій продуктивності моделі. Наша робота також пов'язана з нормалізацією ваги [Саліманс і Кінгма, 2016]. При нормалізації ваги замість дисперсії норма L2 вхідних ваг використовується для нормалізації підсумованих входів до нейрона. Застосування або нормалізації ваги, або нормалізації партії, використовуючи очікувану статистику, рівнозначно різній параметризації вихідної нейронної мережі подачі вперед. Повторна параметризація в мережі ReLU вивчалася в SGD Pathnormalized [Neyshabur et al., 2015]. Запропонований нами спосіб нормалізації шару не є повторною параметризацією вихідної нейронної мережі. Нормована модель шару, таким чином, має інші інваріантні властивості, ніж інші методи , які ми вивчимо в наступному розділі

— рилут
джерело

Нормалізація рівня ( Ba 2016 ): не використовує пакетну статистику. Нормалізуйте, використовуючи статистику, зібрану з усіх одиниць всередині шару поточної вибірки. Не працює з ConvNets.
Поточна нормалізація партії (BN) ( Cooijmans, 2016 ; також запропонована одночасно Qianli Liao & Tomaso Poggio , але протестована на Recurrent ConvNets замість RNN / LSTM): Те саме, що і нормалізація партії. Використовуйте різні статистичні дані щодо нормалізації для кожного кроку часу. Вам потрібно зберігати набір середнього та стандартного відхилень для кожного кроку часу.
Пакетно нормалізовані періодичні нейронні мережі ( Laurent, 2015 ): пакетна нормалізація застосовується лише між вхідним та прихованим станом, але не між прихованими станами. тобто нормалізація не застосовується з часом.
Нормалізація потокової передачі ( Liao et al. 2016 ): вона узагальнює існуючі нормалізації та долає більшість проблем, про які йшлося вище. Він добре працює з ConvNets, періодичним навчанням та навчанням в Інтернеті (тобто невеликою міні-партією або одним зразком за раз):
$L2$ $L2$ $1$ $y = x*(w/|w|)$ $x$ $w$ $g$ $y = y*g$ $g$ здається, що це не суттєво для продуктивності (також шари, що навчаються нижче, можуть навчитися цьому).
$L2$ $y = (x/|x|)*(w/|w|)$ $x$ $w$

Зауважимо, що як норма ваги, так і косинус широко використовувались (називались нормалізованим точковим продуктом) у 2000-х роках у класі ConvNets під назвою HMAX (Riesenhuber 1999) для моделювання біологічного зору. Вам можуть здатися цікавими.

Посилання: Посилання на модель HMAX

Ref: Cortical Network Simulator Reference

Посилання: Нормалізація косину : використання подібності косину замість крапкового продукту в нейронних мережах , Лу Чуньцзі, Чжан Цзянфен, Ван лей, Ян Цян

— NeuralWorks
джерело