Інтерпретація відстані від гіперплану в SVM


14

У мене є кілька сумнівів у розумінні SVM інтуїтивно. Припустимо, ми навчили модель SVM для класифікації, використовуючи стандартний інструмент, наприклад SVMLight або LibSVM.

  1. Коли ми використовуємо цю модель для прогнозування тестових даних, модель генерує файл із значеннями "альфа" для кожної точки тестування. Якщо значення альфа позитивне, тестова точка належить до класу 1, інакше вона належить до класу 2. Тепер, чи можна сказати, що тестова точка з більшим значенням "альфа" належить до відповідного класу з "більшою" ймовірністю?

  2. Подібно до першого питання, коли ми навчаємо SVM. Брехня СВ дуже близька до гіперплощини. Так це означає, що SV належать до цього класу з високою ймовірністю? Чи можемо ми пов’язати ймовірність приналежності точки до класу з його відстані від "гіперплана"? Чи відповідає значення "альфа" відстань від "гіперплана"?

Дякуємо за ваш внесок.


Я думаю, що відповідь - «ні», але я недостатньо в SVM, щоб дати тобі повну відповідь. Моя відповідь кишки полягає в тому, що коли ви знаходитесь на східній стороні Берлінської стіни, то ви просто з тієї сторони, незалежно від того, наскільки ви віддалені від неї.
Артур

scikits.learn має predict_proba для SVC та linear_model.SGDClassifier, я вважаю лише для бінарних класифікаторів; Я не користувався цим, хоча.
denis

Відповіді:


18

| | ш 2 2 ш р ( ш | ( у 1 , х 1 ) , . . . , ( У м , х м ) ) α 1 / Z exp ( - w 2 2 ) iyiw,xib22w22wж Zp(w|(y1,x1),...,(ym,xm))1/Zexp(w22)iexp(yiw,xib22)wZгарантує, що вона нормалізується). Ви добираєтесь до ймовірності Гаусса від функції втрати, перевернувши її знак і піддавши його експоненції. Однак якщо ви робите це з функцією втрати SVM, ймовірність журналу не є нормалізованою імовірнісною моделлю.

Є спроби перетворити SVM в єдине ціле. Найпомітніший з них, я думаю - також реалізований у libsvm, це:

Джон Платт: Імовірнісні результати для векторних машин підтримки та порівняння з нормалізованими методами ймовірності (NIPS 1999): http://www.cs.colorado.edu/~mozer/Teaching/syllabi/6622/papers/Platt1999.pdf

Щоб відповісти на ваше запитання конкретніше: ідея в SVM справді полягає в тому, що чим далі тестовий вектор знаходиться від гіперплану, тим більше він належить до певного класу (за винятком випадків, коли він перебуває з неправильної сторони). У цьому сенсі вектори підтримки не належать до класу з великою часткою ймовірності, оскільки вони або ті, хто є найближчим до гіперплану, або з неправильної сторони. Значення яке ви отримуєте від libsvm, не має нічого спільного з у функції прийняття рішення. Це, скоріше, вихід функції рішення (і тому слід правильно називати ). Оскільки деααiSVαik(x,xi)+byy=iSVαik(x,xi)+b=w,ϕ(x)H+bw живе в просторі ядра Гільберта, що відтворюється, пропорційно підписаній відстані до гіперплану. Було б, якщо ви поділите на норму , яка в термінах ядра .ywwH=i,jSVαiαjk(xi,xj)


thnx для вашого пояснення ... прочитає статтю
Amit
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.