Я намагаюся з’ясувати, який SVR підходить для такого роду даних.
Я знаю 4 типи СВР:
- епсилон
- ну
- найменші квадрати і
- лінійний.
Я розумію, лінійний SVR більше-менш схожий на ласо з L1 Reg, але яка різниця між рештою 3 методами?
Я намагаюся з’ясувати, який SVR підходить для такого роду даних.
Я знаю 4 типи СВР:
Я розумію, лінійний SVR більше-менш схожий на ласо з L1 Reg, але яка різниця між рештою 3 методами?
Відповіді:
У -SVR параметр використовується для визначення частки кількості векторів підтримки, які ви хочете зберегти у своєму рішенні, щодо загальної кількості зразків набору даних. У -SVR параметр вводиться у формулювання проблеми оптимізації і оцінюється автоматично (оптимально) для вас.ν ν ϵ
Однак у -SVR ви не маєте контролю над тим, скільки векторів даних із набору даних стають векторами підтримки, їх може бути декілька, їх може бути багато. Тим не менш, ви матимете тотальний контроль над кількістю помилок, допущеною вашою моделлю, і все, що перевищує вказаний буде накладено штрафом пропорційно , що є параметром регуляризації.ϵ С
Залежно від того, що я хочу, я обираю між двома. Якщо я дуже відчайдушний для невеликого рішення (менше векторів підтримки), я вибираю -SVR і сподіваюся отримати гідну модель. Але якщо я дійсно хочу контролювати кількість помилок у своїй моделі та йти на кращу продуктивність, я вибираю -SVR і сподіваюся, що модель не надто складна (багато векторів підтримки).ϵ
Різниця між -SVR та -SVR полягає в тому, як параметризована проблема навчання. Обидва використовують тип втрати шарніру у функції витрат. Параметр в -SVM може використовуватися для управління кількістю векторів підтримки в отриманій моделі. Враховуючи відповідні параметри, вирішується точно така ж проблема. 1ν ν ν
Найменші квадрати SVR відрізняються від інших двох тим, що використовують залишкові квадрати у функції витрат замість втрати шарніру.
1 : C.-C. Чанг та К.-Ж. Лін. Навчання -підтримка векторної регресії: теорія та алгоритми . Нейрові обчислення, 14 (8): 1959-1977, 2002.
Мені подобаються відповіді Пабло та Марка. Ще один додатковий момент:
У статті, яку цитує Марк, написано (розділ 4)
"Мотивація -SVR полягає в тому, що визначити параметр може бути непросто . Отже, тут нас цікавить можливий діапазон . Як і очікувалося, результати показують, що пов'язаний з цільовими значеннями .
[...]
Оскільки на ефективний діапазон впливають цільові значення , спосіб вирішити цю складність для -SVM полягає в масштабуванні цільових значень перед навчанням даних. Наприклад, якщо всі цільові значення масштабуються до , то ефективний діапазон буде , такий же, як у . Тоді може бути простіше вибрати . "
Це змушує мене думати, що слід легше масштабувати цільові змінні та використовувати -SVR, ніж намагатися вирішити, використовувати або SVR.
Як ти гадаєш?