В обчисленні 101 ми дізналися про те, як оптимізувати функцію за допомогою "аналітичного методу": нам просто потрібно отримати похідну функції вартості та встановити похідну на 0, а потім вирішити рівняння. Це справді проблема іграшок і майже ніколи не трапиться в реальному світі.
У реальному світі багато функцій витрат не є похідними скрізь (Далі, функція витрат може бути дискретною і взагалі не мати похідних). Крім того, навіть якщо ви можете обчислити похідну, ви не можете просто вирішити рівняння аналітично (наприклад, подумайте, як розв'язатих7+х3-52+ех+ л о г( х +х2) + 1 / x = 0аналітично? Я можу вам сказати, що числова відповідь єх = 1,44786, але не знаю аналітичного рішення). Треба використовувати деякі чисельні методи (перевірити, чому тут на полиноміальних випадках теорема Абеля Руффіна ).
Ітеративні методи чудово використовувати, і дуже інтуїтивно зрозуміти. Припустимо, що ви хочете оптимізувати одну функцію, замість того, щоб розв’язати рівняння і отримати відповідь, ви спробуєте покращити свою відповідь за кількістю ітерацій / кроків після достатньої ітерації, ви отримаєте відповідь, близьку до "справжньої відповіді". Скажіть, якщо ви використовуєте обчислення для мінімізаціїf( х ) =х2, ви безпосередньо отримуєте x = 0, але, використовуючи числові методи, ви можете отримати х = 1.1234 ×10- 20.
Тепер важливо зрозуміти, як працюють ці ітераційні методи. Ключова концепція - це знати, як оновити вхідні параметри, щоб отримати краще рішення. Припустимо, ви хочете мінімізуватиf(х1,х2) =х21+х22+ |х1+х2| (зауважте, ця функція вартості не є диференційованою скрізь, але диференційована у "більшості місць", це досить добре для нас, оскільки ми знаємо, як оновити в "більшості місць".), на даний момент ви перебуваєте в ( 1 , 1 ), а вартість є 4.0, тепер ви хочете оновити (х1,х2)зменшити об'єктивну функцію. Як би ти це зробив? Ви можете сказати, що хочу зменшити і те, і іншех1 x2, але чому? Насправді ви неявно використовуєте концепцію градієнта "зміна невеликої кількостіx, що буде далі y" . В(1,1), похідна є (3,3), так стверджують негативні градієнти разів рівень навчання α=0.001, є (−0.003,−0.003), тому ми оновили наше рішення від 1,1 до (0.997,0.997) які мають кращу вартість.