Різниця між ep-SVR і nu-SVR (і найменшими квадратами SVR)


11

Я намагаюся з’ясувати, який SVR підходить для такого роду даних.

Я знаю 4 типи СВР:

  • епсилон
  • ну
  • найменші квадрати і
  • лінійний.

Я розумію, лінійний SVR більше-менш схожий на ласо з L1 Reg, але яка різниця між рештою 3 методами?

Відповіді:


11

У -SVR параметр використовується для визначення частки кількості векторів підтримки, які ви хочете зберегти у своєму рішенні, щодо загальної кількості зразків набору даних. У -SVR параметр вводиться у формулювання проблеми оптимізації і оцінюється автоматично (оптимально) для вас.ν ν ϵνννϵ

Однак у -SVR ви не маєте контролю над тим, скільки векторів даних із набору даних стають векторами підтримки, їх може бути декілька, їх може бути багато. Тим не менш, ви матимете тотальний контроль над кількістю помилок, допущеною вашою моделлю, і все, що перевищує вказаний буде накладено штрафом пропорційно , що є параметром регуляризації.ϵ СϵϵC

Залежно від того, що я хочу, я обираю між двома. Якщо я дуже відчайдушний для невеликого рішення (менше векторів підтримки), я вибираю -SVR і сподіваюся отримати гідну модель. Але якщо я дійсно хочу контролювати кількість помилок у своїй моделі та йти на кращу продуктивність, я вибираю -SVR і сподіваюся, що модель не надто складна (багато векторів підтримки).ϵνϵ


5

Різниця між -SVR та -SVR полягає в тому, як параметризована проблема навчання. Обидва використовують тип втрати шарніру у функції витрат. Параметр в -SVM може використовуватися для управління кількістю векторів підтримки в отриманій моделі. Враховуючи відповідні параметри, вирішується точно така ж проблема. 1ν ν νϵννν

Найменші квадрати SVR відрізняються від інших двох тим, що використовують залишкові квадрати у функції витрат замість втрати шарніру.

1 : C.-C. Чанг та К.-Ж. Лін. Навчання -підтримка векторної регресії: теорія та алгоритмиν . Нейрові обчислення, 14 (8): 1959-1977, 2002.


Дякую за вашу відповідь, Марк. Тож чи можемо ми відрізнити відповідний метод на основі набору даних? Якщо так, чи можете ви дати мені кілька покажчиків? У мене 40000 зразків з 200 чіткими виходами. Тож можна вважати 200 наборів з 200 унікальних зразків. Вхідні дані для всіх 40000 різні, хоча вихід є унікальним для 200 зразків.
Шарат Чандра

0

Мені подобаються відповіді Пабло та Марка. Ще один додатковий момент:

У статті, яку цитує Марк, написано (розділ 4)

"Мотивація -SVR полягає в тому, що визначити параметр може бути непросто . Отже, тут нас цікавить можливий діапазон . Як і очікувалося, результати показують, що пов'язаний з цільовими значеннями .νϵϵϵy

[...]

Оскільки на ефективний діапазон впливають цільові значення , спосіб вирішити цю складність для -SVM полягає в масштабуванні цільових значень перед навчанням даних. Наприклад, якщо всі цільові значення масштабуються до , то ефективний діапазон буде , такий же, як у . Тоді може бути простіше вибрати . "ϵyϵ[1,+1]ϵ[0,1]νϵ

Це змушує мене думати, що слід легше масштабувати цільові змінні та використовувати -SVR, ніж намагатися вирішити, використовувати або SVR.ϵϵν

Як ти гадаєш?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.