Чому неправильно трактувати SVM як ймовірність класифікації?


11

Я розумію, що SVM полягає в тому, що він дуже схожий на логістичну регресію (LR), тобто зважена сума ознак передається сигмоїдної функції, щоб отримати ймовірність приналежності до класу, але замість перехресної ентропії (логістичної) втрати функція, тренування виконується за допомогою втрати шарніра. Перевага використання втрати шарніру полягає в тому, що можна робити різні числові хитрощі, щоб зробити ядро ​​більш ефективним. Однак недоліком є ​​те, що отримана модель має менше інформації, ніж відповідна модель LR. Так, наприклад, без ядра (використовуючи лінійне ядро) межа рішення SVM все ще знаходитиметься в тому самому місці, де LR видає вірогідність 0,5, Але НЕ можна сказати, наскільки швидко ймовірність належності до класу відпадає від межа рішення.

Мої два питання:

  1. Чи правильне моє тлумачення вище?
  2. Як використання втрати шарніра робить недійсним інтерпретувати результати SVM як ймовірності?

Відповіді:


8

хββ0у=сiгн(βх+β0)β,β0

У випадку лінійного SVM (без ядра) межа кордону рішення буде аналогічною межі логістичної регресійної моделі, але може змінюватися залежно від сили регуляризації, яку ви використовували для встановлення SVM. Оскільки SVM і LR вирішують різні проблеми оптимізації, вам не гарантовано мати однакові рішення для межі рішення.

Існує багато ресурсів про SVM, які допоможуть з’ясувати речі: ось один приклад, а інший .


Higgs bozon Це дуже корисно, дякую! Лише декілька подальших запитань: (1) чи можете ви навести інтуїтивний приклад, коли межа рішення SVM НЕ буде подібною до LR? (2) одна з лінійних SVM та LR, як правило, краща за іншу, чи є типи проблем, для яких або є кращим?
GingerBadger

2
Алекс: загалом, лінійні SVM та LR зазвичай працюють порівняно на практиці. Якщо ви хочете імовірнісного результату, тоді використовуйте LR. Якщо ви дбаєте лише про завдання класу, ви можете використовувати будь-яке. Якби ви хотіли прикладу, коли межі їх прийняття рішень були б дуже різними, ви можете уявити лінійно відокремлений набір даних із жменькою точок неправильного класу далеко від межі рішення. Аутлієри потягнули б межу логістичної регресії до себе, але якщо у вас був SVM з досить великим терміном регуляризації, він би фактично ігнорував людей, що втратили життя.
брог Хіггс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.