Я виявив, що Imagenet та інші великі CNN використовують локальні шари нормалізації відповіді. Однак я не можу знайти про них стільки інформації. Наскільки вони важливі і коли їх слід використовувати?
З http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers :
"Рівень нормалізації локальної відповіді виконує своєрідне" бічне гальмування "шляхом нормалізації над локальними вхідними регіонами. У режимі ACROSS_CHANNELS локальні регіони поширюються по сусідніх каналах, але не мають просторової міри (тобто вони мають форму local_size x 1 x 1) . У режимі WITHIN_CHANNEL локальні регіони розширюються просторово, але знаходяться в окремих каналах (тобто вони мають форму 1 x local_size x local_size). Кожне вхідне значення ділиться на (1+ (α / n) ∑ix2i) β, де n - це розмір кожного локального регіону, і сума береться за область, відцентровану за цією величиною (нульова підкладка додається там, де необхідно).
Редагувати:
Здається, що такі види шарів мають мінімальний вплив і вже не використовуються. В основному, їх роль відмічена іншими методами регуляризації (такими як нормалізація випадання та партії), кращими ініціалізаціями та методами навчання. Дивіться мою відповідь нижче для отримання більш детальної інформації.