Апроксимація функції втрат другого порядку (Книга глибокого навчання, 7.33)


11

У книзі Goodfellow (2016) про глибоке навчання він розповів про еквівалентність ранньої зупинки до регуляризації L2 ( https://www.deeplearningbook.org/contents/regularization.html сторінка 247).

Квадратичне наближення функції функції задається:j

J^(θ)=J(w)+12(ww)TH(ww)

де - матриця Гессія (рівняння 7.33). Чи не вистачає цього середнього терміну? Розширення Тейлора повинно бути: H

f(w+ϵ)=f(w)+f(w)ϵ+12f(w)ϵ2

Відповіді:


15

Вони оптимально говорять про ваги:

Ми можемо моделювати функцію витрат з квадратичним наближенням в районі емпірично оптимального значення вагJw

У той момент перша похідна дорівнює нулю - середній член, таким чином, залишається.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.