Інтуїція для підтримки векторних машин та гіперплану


15

У своєму проекті я хочу створити логістичну регресійну модель для прогнозування бінарної класифікації (1 або 0).

У мене 15 змінних, 2 з яких категоричні, а решта - це суміш безперервних та дискретних змінних.

Для того, щоб відповідати моделі логістичної регресії, мені порадили перевірити наявність лінійної відокремленості за допомогою SVM, перцептрон або лінійного програмування. Це пов'язано з пропозиціями , зробленими тут щодо тестування на лінійній отделимости.

Як новачок у машинному навчанні я розумію основні поняття про алгоритми, згадані вище, але концептуально я намагаюся уявити, як ми можемо розділити дані, які мають стільки розмірів, тобто 15 в моєму випадку.

Усі приклади матеріалів в Інтернеті зазвичай показують двовимірний графік з двох числових змінних (зріст, вага), який показує чіткий розрив між категоріями та полегшує розуміння, але в реальному світі дані мають набагато більший вимір. Я продовжую повертатися до набору даних Iris і намагаюся встановити гіперплан через три види, і як це особливо важко, якщо не неможливо, зробити це між двома видами, зараз два класи уникають мене.

Як можна досягти цього, якщо ми маємо ще більші порядки розмірів , чи вважається, що коли ми перевищуємо певну кількість функцій, ми використовуємо ядра для відображення у просторі більш високого розміру для досягнення цієї відокремленості?

Також для того, щоб перевірити на лінійну відокремлюваність, яку метрику використовують? Це точність моделі SVM, тобто точність, заснована на матриці плутанини?

Будь-яка допомога в кращому розумінні цієї теми буде дуже вдячна. Також нижче наведено зразок діаграми двох змінних у моєму наборі даних, який показує, наскільки перекриваються лише ці дві змінні.

введіть тут опис зображення


1
у вас, здається, у вашій посаді є кілька чітких питань. складіть їх усіх у список або видаліть несуттєві питання. це залучає більше людей до кращих відповідей
Аксакал

2
загалом, інтуїція потребує великої допомоги уяви при переході від 2D до ситуації з високими розмірами, часто інтуїція повністю руйнується. існує багато високомірних версій задач з низькими розмірами, які, здається, належать до цілого іншого світу, де все працює по-різному, подумайте про теорему Ферма
Аксакал

Відповіді:


14

Я спробую допомогти вам зрозуміти, чому додавання розмірів допомагає лінійному класифікатору виконати кращу роботу з розділення двох класів.

Х1Х2н=3

n = 3

Тепер уявіть, що деякі пункти можна віднести до класу 1, а деякі до класу 2. Зауважте, що незалежно від того, як ми присвоюємо класи балам, ми завжди можемо провести лінію, яка ідеально розділяє два класи.

Але тепер скажімо, ми додамо новий пункт:

n = 4

p=2

Х3

p = 3, n = 4

p=3н=4

pp+1

нp

ЖнЖнЖЖpЖн=p+1Жpзмінні, тоді він може зруйнувати будь-яку кількість балів. Це поняття розбиття, яке говорить нам про складність набору можливих класифікаторів, походить із статистичної теорії навчання і може бути використане для складання тверджень про кількість перевищення, яку може зробити набір класифікаторів. Якщо вас це цікавить, я настійно рекомендую Лукбургу та Шелькопфу "Статистична теорія навчання: моделі, концепції та результати" (2008).


велике спасибі за вашу детальну відповідь, це дійсно допомогло мені краще зрозуміти ідею багатовимірних особливостей та як їх інтуїтивно відокремити.
TheGoat

7

Помилитися легко, коли ви сприймаєте свою інтуїцію щодо просторів з низькими розмірами та застосовуєте її до просторових просторів. Ваша інтуїція в цьому випадку точно відстала. Набагато простіше виявити роздільну гіперплан у просторі більш високого розміру, ніж у нижньому просторі.

Незважаючи на те, що при перегляді будь-яких двох пар змінних, червоний і синій розподіли перекриваються, при перегляді всіх 15 змінних відразу, цілком можливо, що вони взагалі не перетинаються.


2

У вас є 15 змінних, але не всі вони однаково важливі для дискримінації вашої залежної змінної (деякі з них можуть бути майже нерелевантними).

Аналіз основних компонентів (PCA) розраховує лінійну основу з цих 15 змінних і упорядковує їх таким чином, що перші кілька компонентів зазвичай пояснюють більшість дисперсій. Отже, це дозволяє зменшити 15-мірну задачу до (скажімо) 2,3,4 або 5-мірної задачі. Отже, це робить змову більш інтуїтивно зрозумілою; як правило, ви можете використовувати дві чи три осі для числових (або порядкових порядкових) змінних, а потім використовувати колір, форму та розмітки маркера для трьох додаткових розмірів (можливо, більше, якщо ви можете поєднати порядкові порядки з низькою кардинальністю). Отже, складання шести найважливіших ПК має дати чіткішу візуалізацію поверхні прийняття рішення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.