Апроксимація функції втрат другого порядку (Книга глибокого навчання, 7.33)

У книзі Goodfellow (2016) про глибоке навчання він розповів про еквівалентність ранньої зупинки до регуляризації L2 ( https://www.deeplearningbook.org/contents/regularization.html сторінка 247).

Квадратичне наближення функції функції задається: $j$

\hat{J} (θ) = J (w^{*}) + \frac{1}{2} (w - w^{*})^{T} H (w - w^{*})

$\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*)$

де - матриця Гессія (рівняння 7.33). Чи не вистачає цього середнього терміну? Розширення Тейлора повинно бути: $H$

f (w + ϵ) = f (w) + f^{'} (w) \cdot ϵ + \frac{1}{2} f^{″} (w) \cdot ϵ^{2}

$f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2$

— тушканчик
джерело

Вони оптимально говорять про ваги:

Ми можемо моделювати функцію витрат з квадратичним наближенням в районі емпірично оптимального значення ваг $J$ $w^∗$

У той момент перша похідна дорівнює нулю - середній член, таким чином, залишається.

— Ян Кукацька
джерело