Чому термін зміщення у SVM оцінюється окремо, замість додаткового виміру у векторному характеристиці?


11

Оптимальний гіперплан у SVM визначається як:

wx+b=0,

де поріг. Якщо у нас є деяке відображення яке відображає вхідний простір до деякого простору , ми можемо визначити SVM в просторі , де оптимальною буде гіперплан:ϕ Z ZbϕZZ

wϕ(x)+b=0.

Однак ми завжди можемо визначити відображення таким чином, що , , і тоді оптимальна гіперплана буде визначена як ϕ 0 ( x ) = 1 x wϕ ( x ) = 0.ϕϕ0(x)=1x

wϕ(x)=0.

Запитання:

  1. Чому багато паперів використовують коли вони вже мають відображення та параметри оцінки і theshold роздільно?ϕ w bwϕ(x)+b=0ϕwb

  2. Чи є якась проблема визначити SVM як s.t. \ y_n \ mathbf w \ cdot \ mathbf \ phi (\ mathbf x_n) \ geq 1, \ forall n та оцінюємо лише вектор параметрів \ mathbf w , якщо вважати, що ми визначаємо \ phi_0 (\ mathbf x) = 1, \ forall \ mathbf х ?

    minw||w||2
    w ϕ 0 ( x ) = 1 , x
    s.t. ynwϕ(xn)1,n
    wϕ0(x)=1,x
  3. Якщо визначення SVM з питання 2 можливе, у нас буде w=nynαnϕ(xn) а поріг буде просто b=w0 , до якого ми не будемо ставитися окремо. Таким чином, ми ніколи не будемо використовувати формулу типу b=tnwϕ(xn) для оцінки b з деякого вектора підтримки xn . Правильно?


Відповіді:


12

Чому упередженість важлива?

Термін зміщення - це, дійсно, особливий параметр у SVM. Без нього класифікатор завжди буде проходити через походження. Отже, SVM не дає тобі роздільну гіперплан з максимальним запасом, якщо це не відбудеться через походження, якщо у вас немає терміну зміщення.b

Нижче представлена ​​візуалізація питання упередженості. SVM, тренований з (без) терміном зміщення, показаний зліва (праворуч). Хоча обидва SVM навчаються на одних і тих же даних , однак вони виглядають дуже різними.

введіть тут опис зображення

Чому упередження слід розглядати окремо?

Як зазначав Бен DAI , термін зміщення слід розглядати окремо через регуляризацію. SVM максимізує розмір поля, який є (або залежно від того, як ви його визначаєте).1b 21||w||22||w||2

Максимізація маржі - це те саме, що мінімізація . Це також називається терміном регуляризації і може трактуватися як міра складності класифікатора. Однак ви не хочете впорядковувати термін зміщення, оскільки зміщення шкали класифікації зміщується вгору або вниз на однакову суму для всіх точок даних . Зокрема, зміщення не змінює форму класифікатора чи його розмір поля. Тому ...||w||2

термін зміщення у SVM НЕ повинен регулюватися.

На практиці, однак, простіше просто просунути упередженість у векторний вектор, а не мати справу з окремим випадком.

Примітка: при натисканні зміщення на функцію функції найкраще зафіксувати цей розмір векторного ознаки на великій кількості, наприклад , щоб мінімізувати побічні ефекти регуляризації зміщення.ϕ0(x)=10


Яку програму ви використали для створення сюжетів із цікавості?
d0rmLife

1
@ d0rmLife: це просто мультфільм, який я створив за допомогою MS PowerPoint!
Sobi


1

Іноді люди просто опускають перехоплення у SVM, але я думаю, що причина може бути, ми можемо покарати перехоплення, щоб опустити його. тобто

ми можемо змінити дані та , так що опустимо перехоплювати Як ви сказано, подібну техніку можна використовувати у версії ядра. ш =(ш0,шТ)Тхш+Ь= х шx^=(1,x)w^=(w0,wT)T

x w+b=x^ w^

Однак якщо поставити перехоплення у вагах, цільова функція дещо відрізнятиметься від оригінальної. Ось чому ми називаємо "штрафувати".


Я погоджуюсь, що у нас будуть різні об'єктивні функції. Випадок, коли ми не включаємо перехоплення в параметри, призводить до проблеми оптимізації з обмеженням, а в іншому випадку у нас є проблема . Але я не розумію, для чого важлива для моделі важливе значення для того, щоб паналізувати перехоплення. min w , b | | ш | | 2 хв ш , б | | ш | | 2 + b 2bminw,b||w||2minw,b||w||2+b2
Деян

Що мені спадає на думку, це те, що головна причина, що ми перетинаємось, можливо, тому, що в подвійній задачі перехоплення дозволяє нам мати обмеження що важливо застосувати алгоритм SMO, і якщо у нас немає перехоплення, матимуть лише константи і подвійна оптимізація буде складніше в цьому випадку. α n0αntn=0αn0
Деян

@Petar Я знав одне, що він стає потужним, коли ми розглядаємо подвійну форму цієї моделі. Ця методика усуне лінійне обмеження.
Бен Дай

@ Петар Я не думаю, що подвійна оптимізація буде складнішою, оскільки ми маємо простіший домен.
Бен Дай

@Petar Для конкретного алгоритму це може бути складніше. Однак, математично, я думаю, що домен поле може бути кращим
Бен Дай

0

Крім вищезгаданих причин, відстань точки до гіперплощини, визначеної нахилом та перехопленням є Ось як концепція маржі у SVM розвивається. Якщо ви зміните щоб включити термін перехоплення , на норму вплине розмір перехоплення, що призведе до оптимізації SVM до невеликого перехоплення, що в багатьох випадках не має сенсу.xθb

|θTx+b|||θ||
θbθ


Навіть думав, що відстань точки до гіперплану є правильною, і пояснення виглядає цікавим, я не бачу кореляції між цією формулою та навчанням SVM. Чи можете ви краще пояснити, як використовується ця формула під час тренувань, або надати додаткове посилання.
Деян

θTx+b||θ||{1,1}y(θTx+b)||θ||1||θ||

@Dejan ви можете знайти більше деталей у замітках Ендрю Нґ: cs229.stanford.edu/notes/cs229-notes3.pdf
charlieh_7
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.