Момент використовується для зменшення коливань змін ваги протягом послідовних ітерацій:
Зниження ваги карає зміни ваги:
Питання полягає в тому, чи є сенс поєднувати обидва трюки під час зворотного розповсюдження і який ефект це матиме?
Момент використовується для зменшення коливань змін ваги протягом послідовних ітерацій:
Зниження ваги карає зміни ваги:
Питання полягає в тому, чи є сенс поєднувати обидва трюки під час зворотного розповсюдження і який ефект це матиме?
Відповіді:
Так, дуже часто застосовується обидва трюки. Вони вирішують різні проблеми і можуть добре працювати разом.
Один із способів задуматися над тим, що зменшення ваги змінює функцію, яка оптимізується , а імпульс змінює шлях, який ви рухаєте, до оптимального .
Зменшення ваги, зменшуючи коефіцієнти до нуля, забезпечує те, що ви знайдете локальний оптимум із параметрами малої величини. Зазвичай це має вирішальне значення для уникнення перенапруження (хоча інші види обмежень на ваги теж можуть працювати). Як побічна перевага, вона також може полегшити оптимізацію моделі, зробивши цільову функцію більш опуклою.
Після того, як у вас є об'єктивна функція, ви повинні вирішити, як рухатись по ній. Найбільш крутий спуск на градієнті - найпростіший підхід, але ви праві, що коливання можуть бути великою проблемою. Додавання імпульсу допомагає вирішити цю проблему. Якщо ви працюєте з пакетними оновленнями (що, як правило, погана ідея для нейронних мереж), кроки типу Ньютона - це ще один варіант. Нові "гарячі" підходи базуються на прискореному градієнті Нестерова і так званій "гессіанської" оптимізації.
Але незалежно від того, які з цих правил оновлення ви використовуєте (імпульс, Ньютон тощо), ви все ще працюєте з тією ж цільовою функцією, яка визначається вашою помилковою функцією (наприклад, помилкою в квадраті) та іншими обмеженнями (наприклад, зменшення ваги) . Основне питання, вирішуючи, який із них використовувати, - наскільки швидко ви доберетеся до гарного набору ваг.