Немає терміну регуляризації блоку зміщення в нейронній мережі


14

Відповідно до цього підручника з глибокого навчання , зменшення ваги (регуляризація) зазвичай не застосовується до термінів зміщення b, чому?

Яке значення має інтуїція?


Я думаю, я вже бачив дуже схоже запитання, я просто не можу його знайти ... Можливо, ви повинні переглянути відповідні питання і знайдете відповідь тоді. Також, можливо, це може бути дещо корисним.
Річард Харді

Відповіді:


14

Занадто велике розміщення зазвичай вимагає, щоб вихід моделі був чутливим до невеликих змін у вхідних даних (тобто для точного інтерполяції цільових значень, як правило, потрібно багато кривизни у відповідній функції). Параметри зміщення не сприяють викривленню моделі, тому зазвичай їх регуляризація мало.


5

Мотивація L2 (або L1) полягає в тому, що, обмежуючи ваги, обмежуючи мережу, ви менше переживаєте. Мало сенсу обмежувати ваги зміщення, оскільки зміщення є фіксованими (наприклад, b = 1), таким чином, працюють як перехоплення нейронів, що має сенс надавати більшу гнучкість.


1

Я додам, що термін зміщення часто ініціалізується із середнім значенням, 1а не з 0, тому ми могли б хотіти регулювати його таким чином, щоб не надто далеко від постійної величини, як, 1наприклад, виконувати, 1/2*(bias-1)^2а не робити 1/2*(bias)^2.

Можливо, заміна -1частини за допомогою віднімання до середнього зміщення може допомогти, може бути, середнє значення на рівні шару чи загальне. Але це лише гіпотеза, яку я роблю (про середню субстракцію).

Все це також залежить від функції активації. Наприклад: сигмоїди можуть бути поганими для зниклих градієнтів, якщо зміщення регулюються до високих постійних зрушень.


0

У навчальному посібнику йдеться про те, що "застосувати зменшення ваги до одиниць зміщення, як правило, лише незначна різниця в кінцевій мережі", тому якщо це не допоможе, ви можете припинити робити це для усунення одного гіперпараметра. Якщо ви думаєте, що регуляризація зміщення допоможе у вашому налаштуванні, тоді перехресне підтвердження; немає ніякої шкоди в спробах.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.