Яка статистична модель за алгоритмом SVM?


28

Я дізнався, що при роботі з даними, використовуючи підхід, заснований на моделі, першим кроком є ​​моделювання процедури даних як статистичної моделі. Потім наступним кроком є ​​розробка ефективного / швидкого алгоритму виведення / навчання на основі цієї статистичної моделі. Тож я хочу запитати, яка статистична модель стоїть за алгоритмом векторної машини підтримки (SVM)?

Відповіді:


27

Ви часто можете написати модель, що відповідає функції втрат (тут я розповім про регресію SVM, а не про SVM-класифікацію; це особливо просто)

Наприклад, у лінійній моделі, якщо функцією втрати є то мінімізація буде відповідати максимальній ймовірності для . (Тут у мене лінійне ядро)f exp ( - aig(εi)=ig(yixiβ)= exp ( - afexp(ag(ε)) =exp(ag(yxβ))

Якщо я правильно пригадую, SVM-регресія має функцію втрати на зразок цієї:

сюжет епсилон-нечутливої ​​втрати

Це відповідає щільності, рівномірній посередині, з експоненціальними хвостами (як ми бачимо, експонуючи його негативний, або деякий кратний його негативний).

ділянка відповідної щільності

Ці 3 сімейства параметрів: кутове розташування (відносний поріг нечутливості) плюс розташування та масштаб.

Це цікава щільність; якщо я справедливо пригадую, дивлячись на цей конкретний розподіл кілька десятиліть тому, хорошим оцінником для його розташування є середнє значення двох симетрично розміщених квантовок, що відповідають тому, де розташовані кути (наприклад, медінгей дав би хороший наближення до MLE для одного конкретного вибір константи в втратах SVM); аналогічний оцінювач для параметра масштабу базуватиметься на їх різниці, тоді як третій параметр в основному відповідає визначенню того, в якому процентному значенні розташовані кути (це може бути обрано, а не оцінено, як це часто для SVM).

Так, принаймні, для регресії SVM це здається досить простим, принаймні, якщо ми вирішимо отримати наших оцінок за максимальною вірогідністю.

(У випадку, якщо ви збираєтесь запитати ... Я не маю посилання на цей конкретний зв'язок із SVM: я зараз це лише розробив. Однак все так просто, що десятки людей спрацювали б перед цим, тому без сумніву там є посилання на нього - я просто ніколи не бачив ні одного ).


2
(Я відповів на це раніше деінде, але я видалив це і перемістив його сюди, коли побачив, що ви також тут запитували; можливість писати математику та включати картинки тут набагато краща - і функція пошуку також краща, тому її легше знайти в кілька місяців)
Glen_b -Встановіть Моніку

2
+1, плюс SVM ванілі також має параметр Гаусса за своїми параметрами через . 2
Firebug

2
Якщо ОП запитує про SVM, він / він, ймовірно, зацікавлений у класифікації (що є найбільш поширеним застосуванням SVM). У цьому випадку втрата - це втрата шарніру, яка дещо відрізняється (у вас немає частки, що збільшується). Щодо моделі, я почув науковців, які говорили на конференції, що SVM вводиться для класифікації без використання ймовірнісних рамок. Можливо, тому ви не можете знайти посилання. З іншого боку, ви можете і переробляти мінімізацію втрат шарніру як емпіричну мінімізацію ризику - це означає ...
DeltaIV

4
Тільки тому, що вам не потрібно мати імовірнісну основу ... не означає, що ви робите, не відповідає одному. Можна робити найменші квадрати, не припускаючи нормальності, але корисно зрозуміти, що це добре працює у ... і коли ти ніде не є, це може бути набагато менше.
Glen_b -Встановити Моніку

3
Можливо, icml-2011.org/papers/386_icmlpaper.pdf - це посилання на це? (Я лише його зняв )
Lyndon White

8

Я думаю, хтось уже відповів на ваше буквальне запитання, але дозвольте мені вияснити потенційну плутанину.

Ваше запитання дещо схоже на таке:

У мене є ця функція і мені цікаво, для якого диференціального рівняння це рішення?f(x)=

Іншими словами, на це, безумовно , є вагома відповідь (можливо, навіть унікальна, якщо ви накладаєте обмеження щодо регулярності), але задавати це досить дивно, оскільки це не було диференціальним рівнянням, яке породжувало цю функцію в першу чергу.
(З іншого боку, з огляду на диференціальне рівняння, то це природно запитати , для її вирішення, так як це, як правило , чому ви пишете рівняння!)

Ось чому: Я думаю, ви думаєте про ймовірнісні / статистичні моделі - конкретно, генеративні та дискримінаційні моделі, засновані на оцінці спільних та умовних ймовірностей за даними.

SVM - це не те. Це абсолютно інший вид моделі - той, який обходить ці і намагається безпосередньо моделювати межу остаточного рішення, ймовірності прокляті.

Оскільки мова йде про пошук форми межі рішення, інтуїція за нею є геометричною (або, мабуть, слід сказати на основі оптимізації), а не ймовірнісною чи статистичною.

З огляду на , що ймовірності на насправді не розглядаються в будь-якому місці вздовж шляху, то це досить незвично , щоб запитати , що може бути відповідна імовірнісна модель, і тим більше , що вся мета полягала в тому, щоб уникнути необхідності турбуватися про ймовірність. Тому ви не бачите людей, що говорять про них.


6
Я думаю, ви знижуєте вартість статистичних моделей, що лежать в основі вашої процедури. Причина, яка корисна, полягає в тому, що вона розповідає, які припущення стоять за методом. Якщо ви знаєте це, ви зможете зрозуміти, в яких ситуаціях він буде боротися і коли він буде процвітати. Ви також можете узагальнити та розширити svm принципово, якщо у вас є основна модель.
ймовірністьлогічний

3
@probabilityislogic: "Я думаю, ви знижуєте значення статистичних моделей, що лежать в основі вашої процедури". ... Я думаю, ми говоримо повз один одного. Я намагаюся сказати, що за процедурою не стоїть статистична модель. Я не кажу, що не можна придумати той, який підходить їй після себе, але я намагаюся пояснити, що це не було "позаду" це жодним чином, а скоріше "підходило" до нього після факту . Я також не кажу, що робити таку річ марно; Я згоден з вами, що це може закінчитися величезною цінністю. Зверніть увагу на ці відмінності.
Мехрдад

1
@Mehrdad: Я не кажу, що не можна придумати той, який підходить до нього posteriori, Порядок, в якому були зібрані шматки того, що ми називаємо svm 'машиною' (яку проблему спочатку намагалися люди, які її проектували вирішувати) цікаво з точки зору історії науки. Але, наскільки ми знаємо, у деякій бібліотеці може бути досі невідомий рукопис, що містить опис двигуна svm від 200 років тому, який атакує проблему під кутом дослідження Glen_b. Можливо, поняття післяріччя та після факту є менш надійними в науці.
user603

1
@ user603: Тут не лише історія. Історичний аспект - це лише її половина. Друга половина - це, як це фактично виводиться насправді. Він починається як проблема геометрії і закінчується проблемою оптимізації. Ніхто не починає з імовірнісної моделі в деривації, тобто ймовірнісна модель не була в жодному сенсі "відсталою" від результату. Це як би стверджувати, що лагранжева механіка «позаду» F = ma. Можливо, це може призвести до цього, і так, це корисно, але ні, це не є і ніколи не було його основою. Насправді вся мета полягала у тому, щоб уникнути ймовірності.
Мехрдад
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.