Розуміння регресії SVM: цільова функція та «площинність»


12

SVM для класифікації мають інтуїтивний сенс для мене: я розумію, як мінімізація дає максимальний запас. Однак я не розумію цієї мети в контексті регресії. Різні тексти ( тут і тут ) описують це як максимізацію «плоскості». Чому ми б хотіли це робити? Що в регресії рівнозначно поняттю "маржа"?||θ||2

Ось кілька спроб відповідей, але жодна, яка насправді не допомогла мені зрозуміти.


Я насправді не займаюся теорією SVM, але «плавність» в дискусії з ядрами-машинами, на яку ви посилаєтеся, здається: «має невелику другу похідну» (подумайте про типову мотивацію моделей згладжування сплайну).
сполученийперіор

Відповіді:


11

Один із способів, що я думаю про плоскостопість, полягає в тому, що це робить мої прогнози менш чутливими до збурень в особливостях. Тобто, якщо я будую модель форми де мій вектор вже був нормалізований, то менші значення в означають, що моя модель менш чутлива до помилок вимірювань / випадкові потрясіння / нестаціонарність ознак, . Враховуючи дві моделі ( тобто два можливі значення ), які однаково добре пояснюють дані, я віддаю перевагу "більш плоскій".x θ x θ

y=xθ+ϵ,
xθxθ

Ви також можете подумати про те, що регрес хребта - це те саме, що формує те саме, що не має фокусу з ядром або формулою регресії SVM 'tube'.

редагувати : У відповідь на коментарі @ Ян, ще одне пояснення:

  1. Розглянемо лінійний випадок: . Припустимо, виведено iid з деякого розповсюдження, незалежного від . За точковою тотожністю продукту маємо , де - кут міжx θ y = | | х | | | | θ | | cos ψ + ϵ ψy=xθ+ϵxθy=||x||||θ||cosψ+ϵψ і x , який, ймовірно, розподілений за деяким сферично рівномірним розподілом. Тепер зауважимо: 'розкид' (наприклад,стандартне відхилення вибірки) наших прогнозів y пропорційний | | θ | | . Щоб отримати хороший MSE за допомогою прихованих, безшумних версій наших спостережень, ми хочемо зменшити цеθxy||θ||. cfОцінювач Джеймса Штейна.||θ||
  2. Розглянемо лінійний випадок з великою кількістю функцій. Розглянемо моделі , а y = x θ 2 + ϵ . Якщо у θ 1 в ньому більше нульових елементів, ніж у θ 2 , але приблизно така ж пояснювальна сила, ми вважаємо за краще, базуючись на бритві Оккама, оскільки він має залежність від меншої кількості змінних ( тобто ми зробили "вибір функції", встановивши деякі елементи від θ 1 до нуля). Плоскість - це свого роду суцільна версія цього аргументу. Якщо кожна гранична з xy=xθ1+ϵy=xθ2+ϵθ1θ2θ1xмає стандартне відхилення одиниці, і має, наприклад, 2 елементи, що дорівнюють 10, а решта n - 2 менші за 0,0001, залежно від толерантності до шуму, це ефективно "вибирає" дві характеристики та знецінює решту .θ1n2
  3. Коли використовується фокус ядра, ви здійснюєте лінійну регресію у великому (іноді нескінченному) векторному просторі. Кожен елемент тепер відповідає одному з ваших зразків , а не вашим особливостям . Якщо k елементів у θ ненульові, а решта m - k дорівнюють нулю, характеристики, відповідні k ненульовим елементам θ , називаються вашими „векторами підтримки”. Для зберігання вашої моделі SVM, скажімо, на диску, вам потрібно зберегти лише ті k- вектори функцій, а ви можете викинути решту з них. Тепер рівність дійсно має значення, тому що маючи kθkθmkkθkkневелика, зменшує вимоги до зберігання та передачі тощо . Знову ж таки, залежно від вашої толерантності до шуму, ви, ймовірно, зможете зняти з нуля всі елементи але l найбільший за деякий l після виконання регресії SVM. Площинність тут еквівалентна ситість щодо кількості векторів підтримки.θll

1
то це в основному регресія з функцією втрати "трубки" (0 штрафних балів за +/- епсилон прогнозу), а не квадратичною функцією втрати від OLS?
кон'югатпріор

@Conjugate Prior: так, зазвичай регресія ядра мінімізує функцію 'epsilon-нечутливих втрат', яку ви можете думати як див., Наприклад, kernelvm.tripod.com або будь-який із робіт Смола та ін . f(x)=(|x|ϵ)+
shabbychef

@shabbychef Дякую Я завжди цікавився, що там відбувається.
кон'югат

@Conjugate Prior: Я не думаю, що це насправді бажана функція втрат, але математика в кінцевому підсумку спрацює добре, тому вони побігли з нею. Принаймні, це моя підозра.
shabbychef

y=θxθϵθ=1e91θ=1e9θ=1e9+1

3

shabbychef дав дуже чітке пояснення з точки зору складності моделі. Я спробую зрозуміти цю проблему з іншої точки зору, якщо вона може комусь допомогти.

e

(xi,yi)y=ωx+bee

|ωxiyi+b|ω2+1

eω

Будь-хто може легко поширити одновимірний випадок на N-мірний випадок, оскільки рівняння відстані завжди буде евклідовою відстані .

Крім того, ми можемо ознайомитися з проблемою оптимізації в SVR для порівняння [1].

min12||ω||2
s.t.{yi<ω,xi>be<ω,xi>+byie

Дякую.

[1] Смола, А. та Б. Шьолкопф. Підручник з регресії вектора підтримки. Статистика та обчислювальна техніка, Вип. 14, № 3, серпень 2004, с. 199–222.


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.