Я пройшов курс Ендрю Нґ «Машинне навчання» через Coursera кілька місяців тому, не звертаючи уваги на більшість математики / виведення, а натомість зосередився на впровадженні та практичності. З тих пір я почав вивчати деякі основні теорії і переглянув деякі лекції проф. Нг. Я читав його лекцію "Регульована лінійна регресія", і побачив, що він надає наступну функцію витрат:
Потім він надає наступний градієнт для цієї функції витрат:
Я трохи розгублений у тому, як він переходить від одного до іншого. Коли я намагався зробити своє власне виведення, у мене був такий результат:
Різниця полягає в знаку «плюс» між початковою функцією витрат та параметром регуляризації у формулі проф. Нг, що змінюється на знак «мінус» у його градієнтній функції, тоді як цього в моєму результаті не відбувається.
Інтуїтивно розумію, чому це негативно: ми зменшуємо тета-параметр на градієнтній фігурі, і хочемо, щоб параметр регуляризації зменшив величину, яку ми змінюємо, щоб уникнути перевиконання. Я просто трохи застряг в обчисленні, яке підтримує цю інтуїцію.
FYI, колоду ви можете знайти тут , на слайдах 15 і 16.