Я замислювався про те саме, що проходив цей курс, і закінчив це трохи вивчити. Я дам тут коротку відповідь, але ви можете прочитати більш детальний огляд у публікації в блозі, про яку я писав .
Я вважаю, що принаймні частина причини цих коефіцієнтів масштабування полягає в тому, що регуляризація L², ймовірно, увійшла в поле глибокого навчання завдяки впровадженню пов'язаної, але не тотожної, концепції зменшення ваги.
Тоді коефіцієнт 0,5 є, щоб отримати хороший коефіцієнт лише λ для зменшення ваги в градієнті та масштабування на m ... ну, принаймні 5 різних мотивацій я знайшов або придумав:
- Побічний ефект спуску градієнта партії: коли одна форма ітераційного спуску градієнта замість формалізується протягом усього навчального набору, в результаті чого алгоритм, який іноді називають спускним градієнтом партії, вводиться коефіцієнт масштабування 1 / м, щоб зробити функцію витрат порівнянною для різних наборів даних розміру автоматично застосовується до терміну зменшення ваги.
- Назвіть до ваги окремого прикладу. Дивіться цікаву інтуїцію Греза.
- Репрезентативність навчальних наборів: Є сенс зменшити регуляризацію в міру збільшення розміру навчального набору, оскільки статистично зростає і його репрезентативність загального розподілу. В основному, чим більше у нас даних, тим менше регуляризації потрібно.
- Зробити порівняння λ: Сподіваючись, пом’якшуючи необхідність зміни λ, коли m змінюється, це масштабування робить сам λ порівнянним для різних наборів даних за розмірами. Це робить λ більш репрезентативним оцінником фактичного ступеня регуляризації, необхідного конкретною моделлю щодо конкретної навчальної проблеми.
- Емпірична цінність: Великий зошит
grez
демонструє, що це покращує ефективність на практиці.