У SVM ви шукаєте дві речі: гіперплан з найбільшим мінімальним запасом і гіперплан, який правильно розділяє якомога більше екземплярів. Проблема в тому, що ви не завжди зможете отримати обидві речі. Параметр c визначає, наскільки велике ваше бажання для останнього. Нижче я намалював невеликий приклад, щоб проілюструвати це. Зліва у вас низький c, що дає вам досить великий мінімальний запас (фіолетовий). Однак це вимагає, щоб ми нехтували синім колом, що не вдалося віднести до правильного. Праворуч у вас високий c. Тепер ви не нехтуватимете зовнішнім виглядом і, таким чином, отримаєте набагато менший запас.
То який із цих класифікаторів є найкращим? Це залежить від того, як будуть виглядати майбутні дані, які ви будете прогнозувати, і найчастіше ви цього не знаєте. Якщо дані про майбутнє виглядають так:
тоді класифікатор, засвоєний за допомогою великого значення c, найкращий.
З іншого боку, якщо майбутні дані виглядатимуть так:
то класифікатор, засвоєний за допомогою низького значення c, найкращий.
Залежно від вашого набору даних, зміна c може або не може призвести до різної гіперплани. Якщо він дійсно виробляє іншу гіперплоскость, це не означає , що ваш класифікатор буде виводити різні класи для конкретної інформації ви використовували його для класифікації. Weka - хороший інструмент для візуалізації даних та розігрування з різними налаштуваннями для SVM. Це може допомогти вам краще зрозуміти, як виглядають ваші дані та чому зміна значення c не змінює помилку класифікації. Загалом, маючи декілька навчальних примірників та багато атрибутів, це полегшує лінійне розділення даних. Також той факт, що ви оцінюєте свої дані про навчання, а не нові небачені дані, полегшує розмежування.
З яких даних ви намагаєтеся дізнатися модель? Скільки даних? Чи можемо ми це побачити?