Відповідно до цього підручника з глибокого навчання , зменшення ваги (регуляризація) зазвичай не застосовується до термінів зміщення b, чому?
Яке значення має інтуїція?
Відповідно до цього підручника з глибокого навчання , зменшення ваги (регуляризація) зазвичай не застосовується до термінів зміщення b, чому?
Яке значення має інтуїція?
Відповіді:
Занадто велике розміщення зазвичай вимагає, щоб вихід моделі був чутливим до невеликих змін у вхідних даних (тобто для точного інтерполяції цільових значень, як правило, потрібно багато кривизни у відповідній функції). Параметри зміщення не сприяють викривленню моделі, тому зазвичай їх регуляризація мало.
Я додам, що термін зміщення часто ініціалізується із середнім значенням, 1
а не з 0
, тому ми могли б хотіти регулювати його таким чином, щоб не надто далеко від постійної величини, як, 1
наприклад, виконувати, 1/2*(bias-1)^2
а не робити 1/2*(bias)^2
.
Можливо, заміна -1
частини за допомогою віднімання до середнього зміщення може допомогти, може бути, середнє значення на рівні шару чи загальне. Але це лише гіпотеза, яку я роблю (про середню субстракцію).
Все це також залежить від функції активації. Наприклад: сигмоїди можуть бути поганими для зниклих градієнтів, якщо зміщення регулюються до високих постійних зрушень.
У навчальному посібнику йдеться про те, що "застосувати зменшення ваги до одиниць зміщення, як правило, лише незначна різниця в кінцевій мережі", тому якщо це не допоможе, ви можете припинити робити це для усунення одного гіперпараметра. Якщо ви думаєте, що регуляризація зміщення допоможе у вашому налаштуванні, тоді перехресне підтвердження; немає ніякої шкоди в спробах.