Логістична регресія ядра проти SVM


32

Як відомо всім, SVM може використовувати метод ядра для проектування точок даних у більш високих просторах, щоб точки могли бути розділені лінійним простором. Але ми також можемо використовувати логістичну регресію для вибору цієї межі в просторі ядра, тож які переваги SVM? Оскільки SVM використовує розріджену модель, в якій лише ті вектори підтримки вносять свій внесок при прогнозуванні, чи це робить SVM швидшим у прогнозуванні?


1
Слайди Хасті - те, що ви шукаєте
Yibo Yang

Відповіді:


28

KLR та SVM

  1. В обох випадках ефективність класифікації майже однакова.
  2. KLR може забезпечити ймовірності класів, тоді як SVM є детермінованим класифікатором.
  3. KLR має природне розширення до багатокласової класифікації, тоді як у SVM існує декілька способів поширити її на багатокласну класифікацію (і все ще є сферою дослідження, чи є версія, яка має переважаючі якості порівняно з іншими).
  4. Дивно чи не дивно, KLR також має оптимальні запасні властивості, якими користуються SVM (ну принаймні в межах межі)!

Якщо дивитися на вищезазначене, то майже відчувається, що логістика регресії ядра - це те, що вам слід використовувати. Однак є певні переваги, якими користуються SVM

  1. O(N3)O(N2k)k
  2. Класифікатор у SVM сконструйований таким чином, що він визначається лише з точки зору векторів підтримки, тоді як у KLR класифікатор визначається для всіх точок, а не лише для векторів підтримки. Це дозволяє SVM насолоджуватися природними скороченнями (з точки зору ефективного написання коду), які важко досягти для KLR.

7
+1 Я хотів би лише додати, що якщо обчислювальна складність є проблемою, побудувати модель розрізненої логістичної регресії ядра не дуже складно, жадібно вибираючи базові вектори, щоб мінімізувати регульовані втрати на навчальному наборі чи інші підходи. Наприклад, дивіться статті на "Інформаційній векторній машині".
Дікран Марсупіал

4
Крім того, досить часто, якщо ви оптимізуєте параметри ядра та регуляризацію SVM, ви отримуєте модель, де практично всі дані є векторами підтримки. Рідкість SVM є щасливою випадковістю, це насправді не найкраща точка продажу техніки, оскільки, як правило, можна досягти більшої розрідженості іншими способами.
Дікран Марсупіал

1
@DikranMarsupial Дякуємо за вказівник на інформаційну векторну машину. Я знаю про деякі роботи в Sparse KLR, але до цих пір я не думаю, що жодна з них може масштабуватися для великих наборів даних. Будь-який спосіб випустити хорошу реалізацію розріджених KLR, зручних для користувачів, таких як libSVM або SVM Light, може пройти довгий шлях у прийнятті. Вибачте, якщо такі реалізації вже існують, проте мені про це
невідомо

2
Якщо ви закінчуєте всі пункти даних як вектори підтримки, то ви перестанете підходити. Це трапляється з RBF багато разів. Насправді, одна з головних речей, яку я дізнався як користувач SVM, - це перш за все перевірити частку балів, обраних як вектори підтримки. Якщо це щось більше 30% даних, я відверто відхиляю цю модель.
TenaliRaman

3
Неправильно, що всі точки даних, що є SV, означають надмірну відповідність. Якщо значення C невелике, то на слабких змінних мало штрафу, тоді у вас може бути дуже м'який класифікатор (що робить багато помилок у навчальному наборі), а запас настільки широкий, що всі дані є векторами підтримки. Відмова від некрасивих моделей не є хорошим правилом, оскільки іноді SVM з найкращими характеристиками узагальнення є нерідкими. Кількість СВ - це верхня межа помилки "випуск-випуск", але це часто дійсно дуже обмежена втрата!
Дікран Марсупіал

15

Ось мій погляд на це питання:

SVM - це дуже елегантний спосіб класифікації. Є якась приємна теорія, красива математика, вони добре узагальнюють, і вони теж не надто повільні. Спробуйте використовувати їх для регресії, і це стає безладним.

  • Ось ресурс щодо регресії SVM. Помітьте додаткові параметри, щоб закручуватись та глибоке обговорення алгоритмів оптимізації.

Регресія в Гауссі має багато однакової математики, і вона чудово підходить для регресії. Знову ж таки, дуже елегантний, і це не надто повільно. Спробуйте використовувати їх для класифікації, і це починає відчувати себе досить неприємно.

  • Ось розділ із книги про терапію з реферату.

  • Ось розділ щодо класифікації для порівняння. Зауважте, що ви закінчуєте деякі складні наближення або ітеративний метод.

Одна з приємних рішень щодо використання GP-адрес для класифікації - це те, що він дає вам прогнозний розподіл, а не просту класифікацію так / ні.


2
+1 GP - це хороша альтернатива KLR (хоча KLR часто дає кращі показники роботи, оскільки вибір моделі, заснованої на доказах, може піти неправильно, якщо є неправильна специфікація моделі), а перехресна перевірка часто є кращою.
Дікран Марсупіал

7

відвідайте http://www.stanford.edu/~hastie/Papers/svmtalk.pdf

Деякі висновки: ефективність класифікації дуже схожа. Має обмежуючі оптимальні властивості поля. Надає оцінки ймовірностей класу. Часто вони є більш корисними, ніж класифікації. Узагальнюється природним чином до класифікації М-класу за рахунок багатоярусної регресії ядра.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.