Якщо статистика стосується максимальної ймовірності, то машинне навчання - це все, щоб мінімізувати втрати. Оскільки ви не знаєте втрати, яку ви понесете на майбутніх даних, ви мінімізуєте наближення, тобто емпіричну втрату.
Наприклад, якщо у вас є завдання прогнозування і оцінюється за кількістю прокласифікованих класифікацій, ви можете тренувати параметри так, щоб результатна модель створювала найменшу кількість підстав для класифікаційних даних. "Кількість неправильних класифікацій" (тобто втрата 0-1) - це важка функція втрат, з якою можна працювати, тому що вона не відрізняється, тому ви наближаєте її до гладкого "сурогату". Наприклад, втрата журналу є верхньою межею втрати 0-1, тому ви можете мінімізувати це натомість, і це виявиться таким же, як максимізація умовної вірогідності даних. З параметричною моделлю цей підхід стає рівнозначним логістичній регресії.
У структурованому завданні моделювання та наближенні втрат журналу до втрат 0-1 ви отримуєте щось відмінне від максимальної умовної ймовірності, замість цього ви максимізуєте добуток (умовної) граничної ймовірності.
Для кращого наближення збитків люди помітили, що модель навчання мінімізації втрат та використання цієї втрати як оцінки майбутньої втрати є надмірно оптимістичною оцінкою. Таким чином, для більш точного (справжнього зниження майбутніх втрат) вони додають термін корекції зміщення до емпіричних втрат і мінімізують це, це відоме як структуроване мінімізація ризику.
На практиці з'ясування правильного терміна виправлення зміщення може бути занадто важким, тому ви додаєте вираз "у дусі" терміна виправлення зміщення, наприклад, суму квадратів параметрів. Зрештою, майже всі параметричні підходи до класифікації під наглядом машинного навчання закінчують навчання моделі, щоб мінімізувати наступне
∑iL(m(xi,w),yi)+P(w)
де - ваша модель, параметризована вектором w , я приймається за всі точки даних { x i , y i } , L - деяке обчислювальне приближення вашої справжньої втрати, а P ( w ) - деякий термін корекції зміщення / регуляризаціїmwi{xi,yi}LP(w)
Наприклад, якщо ваш , y ∈ { - 1 , 1 } , типовим підходом буде нехай m ( x ) = знак ( w ⋅ x ) , L ( m ( x ) , y ) = - log ( y × ( x ⋅ w ) ) , P (x∈{−1,1}dy∈{−1,1}m(x)=sign(w⋅x)L(m(x),y)=−log(y×(x⋅w)) і вибираємо q шляхом перехресної перевіркиP(w)=q×(w⋅w)q