Чому термін зміщення у SVM оцінюється окремо, замість додаткового виміру у векторному характеристиці?

Оптимальний гіперплан у SVM визначається як:

w \cdot x + b = 0,

$\mathbf w \cdot \mathbf x+b=0,$

де поріг. Якщо у нас є деяке відображення яке відображає вхідний простір до деякого простору , ми можемо визначити SVM в просторі , де оптимальною буде гіперплан: $b$ $\mathbf \phi$ $Z$ $Z$

w \cdot ϕ (x) + b = 0.

$\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0.$

Однак ми завжди можемо визначити відображення таким чином, що , , і тоді оптимальна гіперплана буде визначена як $\phi$ $\phi_0(\mathbf x)=1$ $\forall \mathbf x$

w \cdot ϕ (x) = 0.

$\mathbf w \cdot \mathbf \phi(\mathbf x)=0.$

Запитання:

Чому багато паперів використовують коли вони вже мають відображення та параметри оцінки і theshold роздільно? $\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0$ $\phi$ $\mathbf w$ $b$
Чи є якась проблема визначити SVM як та оцінюємо лише вектор параметрів , якщо вважати, що ми визначаємо ?
$min_{w} | | w | |^{2}$ $\min_{\mathbf w} ||\mathbf w ||^2$ $s . t . y_{n} w \cdot ϕ (x_{n}) \geq 1, \forall n$ $s.t. \ y_n \mathbf w \cdot \mathbf \phi(\mathbf x_n) \geq 1, \forall n$ $\mathbf w$ $\phi_0(\mathbf x)=1, \forall\mathbf x$
Якщо визначення SVM з питання 2 можливе, у нас буде $\mathbf w = \sum_{n} y_n\alpha_n \phi(\mathbf x_n)$ а поріг буде просто $b=w_0$ , до якого ми не будемо ставитися окремо. Таким чином, ми ніколи не будемо використовувати формулу типу $b=t_n-\mathbf w\cdot \phi(\mathbf x_n)$ для оцінки $b$ з деякого вектора підтримки $x_n$ . Правильно?

svm threshold

— Деян
джерело

Пов'язане: Причина не зменшення терміну упередженості (перехоплення) в регресії .

— амеба

Відповіді:

Чому упередженість важлива?

Термін зміщення - це, дійсно, особливий параметр у SVM. Без нього класифікатор завжди буде проходити через походження. Отже, SVM не дає тобі роздільну гіперплан з максимальним запасом, якщо це не відбудеться через походження, якщо у вас немає терміну зміщення. $b$

Нижче представлена візуалізація питання упередженості. SVM, тренований з (без) терміном зміщення, показаний зліва (праворуч). Хоча обидва SVM навчаються на одних і тих же даних , однак вони виглядають дуже різними.

Чому упередження слід розглядати окремо?

Як зазначав Бен DAI , термін зміщення слід розглядати окремо через регуляризацію. SVM максимізує розмір поля, який є (або залежно від того, як ви його визначаєте). $b$ $\frac{1}{||w||^2}$ $\frac{2}{||w||^2}$

Максимізація маржі - це те саме, що мінімізація . Це також називається терміном регуляризації і може трактуватися як міра складності класифікатора. Однак ви не хочете впорядковувати термін зміщення, оскільки зміщення шкали класифікації зміщується вгору або вниз на однакову суму для всіх точок даних . Зокрема, зміщення не змінює форму класифікатора чи його розмір поля. Тому ... $||w||^2$

термін зміщення у SVM НЕ повинен регулюватися.

На практиці, однак, простіше просто просунути упередженість у векторний вектор, а не мати справу з окремим випадком.

Примітка: при натисканні зміщення на функцію функції найкраще зафіксувати цей розмір векторного ознаки на великій кількості, наприклад , щоб мінімізувати побічні ефекти регуляризації зміщення. $\phi_0(x) = 10$

— Собі
джерело

Яку програму ви використали для створення сюжетів із цікавості?

— d0rmLife

@ d0rmLife: це просто мультфільм, який я створив за допомогою MS PowerPoint!

— Sobi

+1. Пов'язане: Причина не зменшення терміну упередженості (перехоплення) в регресії .

— амеба

Іноді люди просто опускають перехоплення у SVM, але я думаю, що причина може бути, ми можемо покарати перехоплення, щоб опустити його. тобто

ми можемо змінити дані та , так що опустимо перехоплювати Як ви сказано, подібну техніку можна використовувати у версії ядра. $\mathbf{\hat{x}} = (\mathbf{1}, \mathbf{x})$ $\mathbf{\hat{w}} = (w_{0}, \mathbf{w}^{T})^{T}$

x w + b = \hat{x} \hat{w}

$\mathbf{x} ~ \mathbf{w} + b = \mathbf{\hat{x}} ~ \mathbf{\hat{w}}$

Однак якщо поставити перехоплення у вагах, цільова функція дещо відрізнятиметься від оригінальної. Ось чому ми називаємо "штрафувати".

— Бен Дай
джерело

Я погоджуюсь, що у нас будуть різні об'єктивні функції. Випадок, коли ми не включаємо перехоплення в параметри, призводить до проблеми оптимізації з обмеженням, а в іншому випадку у нас є проблема . Але я не розумію, для чого важлива для моделі важливе значення для того, щоб паналізувати перехоплення.

b

$b$

min_{w, b} | | w | |^{2}

$\min_{\mathbf w,b} ||\mathbf w||^2$

min_{w, b} | | w | |^{2} + b^{2}

$\min_{\mathbf w,b} ||\mathbf w||^2 + b^2$

— Деян

Що мені спадає на думку, це те, що головна причина, що ми перетинаємось, можливо, тому, що в подвійній задачі перехоплення дозволяє нам мати обмеження що важливо застосувати алгоритм SMO, і якщо у нас немає перехоплення, матимуть лише константи і подвійна оптимізація буде складніше в цьому випадку.

\sum α_{n} t_{n} = 0

$\sum \alpha_n t_n=0$

α_{n} \geq 0

$\alpha_n\geq 0$

— Деян

@Petar Я знав одне, що він стає потужним, коли ми розглядаємо подвійну форму цієї моделі. Ця методика усуне лінійне обмеження.

— Бен Дай

@ Петар Я не думаю, що подвійна оптимізація буде складнішою, оскільки ми маємо простіший домен.

— Бен Дай

@Petar Для конкретного алгоритму це може бути складніше. Однак, математично, я думаю, що домен поле може бути кращим

— Бен Дай

Крім вищезгаданих причин, відстань точки до гіперплощини, визначеної нахилом та перехопленням є Ось як концепція маржі у SVM розвивається. Якщо ви зміните щоб включити термін перехоплення , на норму вплине розмір перехоплення, що призведе до оптимізації SVM до невеликого перехоплення, що в багатьох випадках не має сенсу. $x$ $\theta$ $b$

\frac{| θ^{T} x + b |}{| | θ | |}

$\frac{|\theta^T x + b|}{||\theta||}$

θ

$\theta$

b

$b$

θ

$\theta$

— charlieh_7
джерело

Навіть думав, що відстань точки до гіперплану є правильною, і пояснення виглядає цікавим, я не бачу кореляції між цією формулою та навчанням SVM. Чи можете ви краще пояснити, як використовується ця формула під час тренувань, або надати додаткове посилання.

— Деян

\frac{θ^{T} x + b}{| | θ | |}

$\frac{\theta^T x + b}{||\theta||}$

{- 1, 1}

$\{-1, 1\}$

\frac{y (θ^{T} x + b)}{| | θ | |}

$\frac{y(\theta^T x + b)}{||\theta||}$

\frac{1}{| | θ | |}

$\frac{1}{||\theta||}$

@Dejan ви можете знайти більше деталей у замітках Ендрю Нґ: cs229.stanford.edu/notes/cs229-notes3.pdf

— charlieh_7