Яка функція втрат жорсткої маржі SVM?


23

Люди кажуть, що SVM з м'якою маржею використовує функцію втрати шарніра: . Однак фактична цільова функція, яку SVM з м'яким запасом намагається мінімізувати, - \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max (0,1-y_i (w ^ \ intercal x_i + b) ) Деякі автори називають регуляризатор терміна \ | w \ | ^ 2 та функцію втрати терміна \ max (0,1-y_i (w ^ \ intercal x_i + b)) .max(0,1yi(wxi+b))

12w2+Cimax(0,1yi(wxi+b))
w2max(0,1yi(wxi+b))

Однак для SVM з жорсткою маржею вся цільова функція є просто

12w2
Чи означає це, що SVM з жорстким запасом лише мінімізує регуляризатор без жодної функції втрат? Це звучить дуже дивно.

Що ж, якщо 12w2 в даному випадку функція втрати, чи можемо ми її назвати квадратичною функцією втрат? Якщо так, то чому функція втрати SVM з жорсткою маржею стає регулятором у SVM з м'якою маржею та здійснює зміну від квадратичної втрати до втрати шарніру?


Наскільки я розумію, жорсткий запас означає, що ви не приймаєте дані в свої поля. Як наслідок, max (0, розрахунок) завжди буде повертати 0.
fxm

Відповіді:


26

Термін втрати шарніру iмакс(0,1-уi(шхi+б)) у м'якому відриві SVM карає неправильні класифікації . У жорсткій маржі SVM, за визначенням, немає ніяких підстав.

Це дійсно означає, що SVM з жорсткою маржею намагається мінімізувати ш2 . Через формулювання задачі SVM, маржа дорівнює 2/ш. Таким чином, мінімізація норми ш геометрично еквівалентна максимізації запасу. Саме те, що ми хочемо!

Регуляризація - це техніка, що дозволяє уникнути перевитрати, штрафуючи великі коефіцієнти у векторі розчину. У жорсткому маржинальної SVM є як функція втрат і регуляризатора.ш2L2

У SVM з низьким рівнем запасу термін втрати шарніра також діє як регуляризатор, але на слабких змінних замість та в а не . Регуляризація індукує розрідженість, тому стандартний SVM є рідким щодо векторів підтримки (на відміну від SVM з найменшими квадратами).шL1L2L1


Чи можете ви пояснити останні два абзаци ще деякими деталями та математикою?
Найн

0

Для уточнення, мінімізується за умови обмеження, що точки лінійно відокремлюються (тобто можна намалювати гіперплощину, яка ідеально розділяє обидві). Іншими словами, єдиними дозволеними значеннями w, які ми можемо вважати рішеннями, є ті, що розділяють два набори точок.

12ш2

Тепер вважається, що SVM з жорсткою маржею "перевищує" швидше, ніж м'який. Це легше уявити RBF SVM з достатньо високою , яка може створювати (надмірно) складні та (потенційно) надмірно встановлені межі рішення. Чим складніше маржа (точно імітується з більш високим "C"), тим важче пошук намагатиметься знайти межі рішення, які ідеально класифікують два набори точок.γ

Коли ми переходимо до "м'якої межі", обмеження розслабляються і замінюються обмеженням через введення "млявого". Ця змінна величина визначається терміном "втрата шарніру". Після спрощення доходить до шарніра + l2, ​​як термін втрати, який кожен асоціюється з SVM. FWIW, мені подобається обрамляти SVM як більш оптимізаційну проблему замість всюдисущої проблеми "слідувати градієнтам".

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.