Я розумію, що SVM полягає в тому, що він дуже схожий на логістичну регресію (LR), тобто зважена сума ознак передається сигмоїдної функції, щоб отримати ймовірність приналежності до класу, але замість перехресної ентропії (логістичної) втрати функція, тренування виконується за допомогою втрати шарніра. Перевага використання втрати шарніру полягає в тому, що можна робити різні числові хитрощі, щоб зробити ядро більш ефективним. Однак недоліком є те, що отримана модель має менше інформації, ніж відповідна модель LR. Так, наприклад, без ядра (використовуючи лінійне ядро) межа рішення SVM все ще знаходитиметься в тому самому місці, де LR видає вірогідність 0,5, Але НЕ можна сказати, наскільки швидко ймовірність належності до класу відпадає від межа рішення.
Мої два питання:
- Чи правильне моє тлумачення вище?
- Як використання втрати шарніра робить недійсним інтерпретувати результати SVM як ймовірності?