Припустимо, ми опинилися в такій ситуації. У нас є деякі дані{хi,уi}, де кожен хi може бути числом чи вектором, і ми хотіли б визначити функцію f що наближає відносини f(хi) ≈уi, в тому сенсі, що найменша помилка квадрата:
12∑i(уi- f(хi))2
невеликий.
Тепер постає питання про те, що б нам хотілося домену fбути. Вибір вибору для домену - це лише моменти наших навчальних даних. У цьому випадку ми можемо просто визначитисьf(хi) = у, що охоплює весь бажаний домен, і робити це з ним. Окружний спосіб досягти цієї відповіді - це спуск градієнта з цим дискретним простором як домен. Це потребує певних змін у точці зору. Давайте розглянемо втрату як функцію істинної точкиуі передбачення f (в дану хвилину, f це не функція, а лише значення передбачення)
Л ( ф; у) =12( у- f)2
а потім прийняти градієнт щодо прогнозування
∇fЛ ( ф; у) = f- у
Потім оновлення градієнта, починаючи з початкового значення у0 є
у1=у0-∇f(у0, у)=у0- (у0-у) = у
Таким чином, ми відновимо наше ідеальне передбачення за допомогою градієнтного кроку за допомогою цієї настройки, що приємно!
Недолік тут, звичайно, те, що ми хочемо fвизначатись набагато більше, ніж лише наші точки навчання. Для цього ми повинні зробити кілька поступок, оскільки ми не в змозі оцінити функцію втрат або її градієнт в будь-яких точках, крім нашого навчального набору даних.
Велика ідея полягає у слабкому наближенні ∇ L.
Start
з початковою здогадкою на f, майже завжди проста константна функція f( х ) =f0, це визначено скрізь. Тепер генеруйте новий робочий набір даних, оцінюючи градієнт функції втрат на даних тренувань, використовуючи початкову здогадку дляf:
W= {хi,f0- у}
Now approximate
∇ L шляхом пристосування слабкого учня до W. Скажімо, ми отримаємо наближенняЖ≈ ∇ L. Ми отримали розширення данихW по всьому домену у вигляді Ж( X), хоча ми втратили точність у навчальних балах, оскільки ми підходимо до маленького учня.
Finally
, використовувати Ж замість ∇ L в оновленні градієнта f0 для всього домену:
f1( х ) =f0( x ) - F( х )
Ми виходимо f1, нове наближення f, трохи краще, ніж f0. Почніть зf1, і повторіть, поки не задоволені.
Сподіваємось, ви бачите, що дійсно важливим є наближення градієнта втрат. У випадку мінімізації квадратів це мінімізація має форму неочищених залишків, але у більш складних випадках це не відбувається. Машина все ще застосовується. Поки можна побудувати алгоритм для обчислення втрат та градієнта втрат за навчальними даними, ми можемо використовувати цей алгоритм для наближення функції, що мінімізує цю втрату.