Як підказує highBandwidth, це залежить від того, використовуєте ви лінійний SVM чи нелінійний (бути педантичним, якщо ядро не використовується, це лінійний класифікатор максимального поля, а не SVM).
Лінійний класифікатор максимального запасу не відрізняється від будь-якого іншого лінійного класифікатора тим, що якщо процес генерації даних означає, що між атрибутами є взаємодія, то надання цих умов взаємодії, ймовірно, підвищить продуктивність. Лінійний класифікатор максимальної границі є скоріше подібним до регресії хребта, з невеликою різницею строку покарання, призначеного для уникнення перевищення (з урахуванням відповідних значень для параметра регуляризації), і в більшості випадків регресія хребта та класифікатор максимального запасу дають подібні показники.
Якщо ви вважаєте, що умови взаємодії, ймовірно, є важливими, тоді ви можете ввести їх у функціональний простір SVM, використовуючи поліноміальне ядро , яке дасть простір ознак, у якому кожна вісь являє собою мономаль порядку або менше, параметр впливає на відносну вагу мономенів різних порядків. Таким чином, SVM з поліномним ядром еквівалентний розміщенню поліноміальної моделі в просторі атрибутів, яка неявно включає ці взаємодії. d cK(x,x′)=(x⋅x′+c)ddc
З огляду на достатню кількість функцій, будь-який лінійний класифікатор може тривіально відповідати даним. IIRC точок "загального положення" в розмірному просторі може бути розбита (розділена будь-яким довільним чином) гіперплощиною (див. Розмірність VC). Це, як правило, призведе до сильного перезбудження, і цього слід уникати. Суть максимальної класифікації маржі полягає в обмеженні цього перевиконання шляхом додавання штрафу, що означає, що досягається найбільше можливе розмежування (що вимагало б найбільшого відхилення від будь-якого прикладу навчання для створення помилкової класифікації). Це означає, що ви можете перетворити дані у дуже високий розмірний простір (де лінійна модель дуже потужна), не зазнаючи занадто великої перезміщення.n - 1nn−1
Зауважте, що деякі ядра створюють нескінченний розмірний простір функцій, де гарантовано "тривіальну" класифікацію для будь-якого обмеженого зразка тренувань у загальному положенні. Наприклад, радіальне базове функціональне ядро, , де простір ознак є позитивним ортантом нескінченної розмірної гіперсфери. Такі ядра роблять SVM універсальним наближенням, який по суті може представляти будь-яку межу рішення.K(x,x′)=exp−γ∥x−x′∥2
Однак це лише частина історії. На практиці ми, як правило, використовуємо SVM з м'якою маржею, де обмеження маржі дозволено порушувати, і існує параметр регуляризації, який контролює компроміс між максимізацією маржі (що є штрафним строком, подібним до використовуваного в регресія хребта) та величина слабких змінних (яка схожа на втрати на навчальному зразку). Тоді ми уникаємо перенастроювання, налаштовуючи параметр регуляції, наприклад, мінімізуючи помилку перехресної валідації (або деяку прив’язку до помилки виходу-виходу), як це було б у випадку регресії хребта.
Отже, хоча SVM може тривіально класифікувати навчальний набір, він, як правило, робить це лише у випадку неправильного вибору параметрів регуляризації та ядра. Ключове значення для досягнення хороших результатів для будь-якої моделі ядра полягає у виборі відповідного ядра, а потім у налаштуванні параметрів ядра та регуляризації, щоб уникнути перевиконання або недоопрацювання даних.