Так, регуляризація може бути використана у всіх лінійних методах, включаючи регресію та класифікацію. Я хотів би показати вам, що різниця між регресією та класифікацією не надто велика: різниця лише в функції втрат.
Зокрема, є три основні компоненти лінійного методу: Функція втрат, Регулялізація, Алгоритми . Якщо функція втрат плюс регуляризація є об'єктивною функцією в задачі в оптимізаційній формі і алгоритм є способом її вирішення (цільова функція випукла, ми не будемо обговорювати в цій публікації).
L(y^,y)=(y^−y)2L(y^,y)=|y^−y|L(⋅)yy^
L(y^,y)=log(1+exp(−y^y))L(y^,y)=(1−y^y)+y{−1,1}y^y^
У налаштуваннях регуляризації ви згадали про регуляризацію L1 та L2, також існують інші форми, про які не піде мова в цій публікації.
Тому на високому рівні лінійний метод
minimizew ∑x,yL(w⊤x,y)+λh(w)
Якщо ви заміните функцію втрати з налаштування регресії на логістичну втрату, ви отримаєте логістичну регресію з регуляризацією.
Наприклад, у регресії хребта проблема оптимізації є
minimizew ∑x,y(w⊤x−y)2+λw⊤w
Якщо ви заміните функцію втрати на логістичну втрату, проблема стає
minimizew ∑x,ylog(1+exp(−w⊤x⋅y))+λw⊤w
Тут ви маєте логістичну регресію з регуляризацією L2.
Так виглядає в іграшковому синтезованому наборі даних бінарних даних. Ліва цифра - це дані з лінійною моделлю (межа рішення). Правий малюнок - контур об'єктивної функції (вісь x і y представляє значення для 2 параметрів.). Набір даних був сформований з двох Гаусса, і ми підходимо до логістичної регресійної моделі без перехоплення, тому у правій підрозділі є лише два параметри, які ми можемо візуалізувати.
Сині лінії - це логістична регресія без регуляризації, а чорні - логістична регресія з L2 регуляризацією. Сині та чорні точки у правій фігурі є оптимальними параметрами для об'єктивної функції.
λ0
Ось ще один приклад регуляризації L1.
Зауважимо, що мета цього експерименту намагається показати, як регуляризація працює в логістичній регресії, але не аргументувати регульовану модель краще.
λλ0
wxyy^=f(x)=w⊤x1
yy∈{−1,1}
y^=w⊤xy^yy^=w⊤x{−1,1}y^
y∈{0,1}
Код можна знайти в іншій моїй відповіді тут.
Чи є інтуїтивне пояснення, чому логістична регресія не буде працювати для ідеального випадку розлуки? І чому додавання регуляризації виправить це?