Я читав документ про нормалізацію партії [1], і в ній був один розділ, де йдеться про приклад, намагаючись показати, чому нормалізацію потрібно робити обережно. Я, чесно кажучи, не можу зрозуміти, як працює приклад, і мені справді дуже цікаво зрозуміти, що вони створюють папір, наскільки я можу. Спочатку дозвольте це процитувати тут:
Наприклад, розглянемо шар із входом u, який додає вивчену зміщення b, і нормалізує результат, віднісши середнє значення активації, обчислене над навчальними даними: де - це набір значень над навчальним набором, а . Якщо крок спуску градієнта ігнорує залежність від , то він оновиться , де . Тоді . Таким чином, поєднання оновлення до і подальша зміна нормалізації призвела до не зміни на виході шару, а отже, до втрат.
Я думаю, що я розумію повідомлення, що якщо нормально не зробити нормалізацію, це може бути погано. Я просто не знаю, як це зображує приклад, який вони використовують.
Я усвідомлюю, що важко допомогти комусь, якщо вони не є більш конкретними щодо того, що їх бентежить, тому я викладу в наступному розділі речі, які мене бентежать щодо їх пояснення.
Я думаю, що більшість моїх плутанин можуть бути помітними, тому я уточню.
По-перше, я думаю, що одне із речей, що мене дуже бентежить, - це те, що означає для авторів наявність підрозділу в мережі та що таке активація. Зазвичай я думаю про активацію як:
де - це неочищені вектори функцій з першого вхідного шару.
Крім того, я думаю, що перше, що мене бентежить (через попередню причину), - це те, що насправді є сценарієм, який вони намагаються пояснити. Він говорить:
нормалізує результат шляхом віднімання середнього значення активації, обчисленої за навчальними даними: де
Я думаю, що вони намагаються сказати, що замість використання активацій як обчислених прямим проходом, виконується певна «нормалізація», віднімаючи середню активацію :
а потім передає це алгоритму зворотного поширення. Або принаймні те, що було б для мене сенсом.
Що стосується цього, я думаю, що те, що вони називають , можливо, ? Це те, що я б здогадався, тому що вони називають це "вхідним" і мають рівняння (я думаю, вони використовують блок ідентичності / лінійної активації для своєї нейронної мережі? Можливо).
Щоб ще більше заплутати мене, вони визначають як щось пропорційне частковій похідній, але часткова похідна обчислюється щодо , що здається мені справді химерним. Зазвичай часткові похідні при використанні градієнтного спуску відносяться до параметрів мережі. У випадку компенсації я б подумав:
має більше сенсу, ніж приймати похідне відносно нормалізованих активацій. Я намагався зрозуміти , чому вони взяти похідну по , і я подумав , що вони мали в вид дельт , коли вони писали , так як зазвичай це єдина частина алгоритму зворотної опори, яка має похідну відносно попередньої активації, оскільки рівняння дельти:
Ще одна річ, яка мене бентежить:
Тоді .
вони насправді не кажуть, що вони намагаються обчислити у наведеному вище рівнянні, але я б сказав, що вони намагаються обчислити оновлену нормалізовану активацію (для першого шару?) після того, як буде оновлено до ? Не впевнений, чи купую їх точку, бо я вважаю, що правильне рівняння повинно було бути:
що не скасовує зміна параметра . Однак я не знаю, що вони роблять, тому я просто здогадуюсь. Що саме таке рівняння, яке вони написали?
Я не впевнений, чи це правильне розуміння, але я трохи роздумав їхній приклад. Здається, що в їх прикладі немає нелінійного блоку активації (використовує ідентичність), і вони говорять лише про перший вхідний шар? Оскільки вони залишили безліч деталей, і позначення не дуже зрозумілі, я не можу точно зрозуміти, про що вони говорять. Хтось знає, як висловити цей приклад нотацією, яка виражає те, що відбувається на кожному шарі? Хтось розуміє, що насправді відбувається з цим прикладом, і хоче поділитися зі мною своєю мудрістю?
[1]: Ioffe S. and Szegedy C. (2015),
"Нормалізація партії: прискорення глибокої мережевої підготовки шляхом зменшення внутрішнього коваріатного зсуву",
Матеріали 32-ї міжнародної конференції з машинного навчання , Лілль, Франція, 2015.
Журнал машинного навчання. Дослідження: W&CP том 37