Я читав папір для нормалізації партії (BN) (1) і не розумів необхідності використання ковзаючих середніх для відстеження точності моделі, і навіть якщо я визнав, що це правильно зробити, я не розумію що саме вони роблять.
Наскільки я розумію (що я помиляюся), у статті йдеться про те, що вона використовує статистику населення, а не міні-пакет, статистику після того, як модель закінчила навчання. Після деякого обговорення неупереджених оцінок (це здається мені дотичним і не розумію, чому це говорить про це), вони йдуть і кажуть:
Використовуючи натомість ковзні середні показники, ми відстежуємо точність моделі під час тренування.
Це та частина, яка мене бентежить. Чому вони роблять ковзні середні, щоб оцінити точність моделі та над яким набором даних?
Зазвичай те, що люди роблять, щоб оцінити узагальнення своєї моделі, вони просто відстежують помилку валідації своєї моделі (і, можливо, рано припиняють спуск градієнта до регуляризації). Однак, схоже, що нормалізація партії робить щось зовсім інше. Чи може хтось уточнити, що і чому це робить щось інше?
1 : Іоффе С. та Сегеді К. (2015),
"Нормалізація партії: прискорення глибокої мережевої підготовки шляхом зменшення внутрішнього коваріатного зсуву",
Матеріали 32-ї міжнародної конференції з машинного навчання , Лілль, Франція, 2015.
Журнал машинного навчання: W&CP том 37