Межі узагальнення на SVM


11

Мене цікавлять теоретичні результати щодо узагальнення здатності підтримуючих векторних машин, наприклад, межі щодо ймовірності помилки класифікації та розмірності Вапніка-Червоненкіса (ВК) цих машин. Однак, читаючи літературу, у мене склалося враження, що деякі подібні повторювані результати, як правило, незначно відрізняються від автора до автора, особливо щодо технічних умов, необхідних для певного виконання.

Далі я згадаю структуру проблеми SVM та стан 3 основних результатів узагальнення, які я періодично знаходив у тій чи іншій формі я даю 3 основні посилання протягом усієї експозиції.

Налаштування проблеми :

Припустимо, у нас є вибірка даних незалежних і однаково розподілених (iid) пар де для всіх , і . Ми побудуємо підтримуючу векторну машину (SVM), яка максимізує мінімальний запас між роздільною гіперпланкою, визначеною , і і найближча точка серед , щоб розділити два класи, визначені та . Ми дозволяємо SVM допускати деякі помилки через м'який запас, вводячи слабкі змінні(xi,yi)1inixiRpyi{1,1}m{x:wx+b=0}wRpbRx1,,xny=1y=1ξ1,,ξn але для наочної простоти ми ігноруємо можливість ядер. Параметри рішення і отримують шляхом розв'язання наступної опуклої програми квадратичної оптимізації:wb

minw,b,ξ1,,ξn12w2+Ci=1nξis.t.:yi(wxi+b)1ξi,i{1,,n}ξi0,i{1,,n}

Нас цікавить можливість узагальнення цієї машини.

Розмір Вапник-Червоненкіс VC :

Перший результат зумовлений (Vapnik, 2000), в якому він обмежує розмір ВК роздільної гіперплани, теорема 5.1. Нехай, ми маємо:R=maxxixi

VCmin((Rm)2,p)+1

Цей результат знову можна знайти в (Burges, 1998), теорема 6. Однак, здається, теорема Берджеса є більш обмежувальною, ніж той самий результат Вапніка, оскільки йому потрібно визначити спеціальну категорію класифікаторів, відому як класифікатори, стійкі до розриву до якої належить СВМ, констатувати теорему.

Обмежує ймовірність помилок :

В (Вапник, 2000), теорема 5.2 на сторінці 139 дає таке обмеження на здатність узагальнення SVM:

E[Perror]1nE[min(p,nSV,(Rw)2)]

де - кількість векторів підтримки SVM. Ці результати, здається, знову знайдемо в (Burges, 1998), рівняннях (86) та (93) відповідно. Але знову ж таки, здається, що Берджес відрізняється від Вапніка, оскільки він розділяє компоненти в межах мінімальної функції, наведеної вище, в різних теоремах, при різних умовах.nSV

Інший результат, що з’являється в (Vapnik, 2000), с.133, такий. Припускаючи знову, що для всіх , і дозволяючи і , ми визначаємо дорівнює:ixi2R2hVCϵ[0,1]ζ

ζ=4h(ln2nh+1)lnϵ4n

Ми також визначаємо як кількість неправильно класифікованих прикладів навчання SVM. Тоді з ймовірністю ми можемо стверджувати, що ймовірність того, що тестовий приклад не буде відокремлено правильно гіперпланкою -margin тобто SVM з запасом має обмежену формулу :nerror1ϵmm

Perrornerrorn+ζ2(1+1+4nerrornζ)

Однак у (Hastie, Tibshirani and Friedman, 2009), стр.438, виявлено дуже подібний результат:

ErrorTestζ

Висновок :

Мені здається, що між цими результатами існує певна ступінь конфліктності. З іншого боку, дві з цих посилань, хоч і є канонічними в літературі про SVM, починають бути трохи старішими (1998 та 2000 рр.), Особливо якщо врахувати, що дослідження алгоритму SVM розпочалися в середині дев'яностих.

Мої запитання:

  • Чи є ці результати і сьогодні чи справді вони підтверджені помилково?
  • Чи були виведені більш жорсткі межі з відносно слабкими умовами відтоді? Якщо так, то ким і де я можу їх знайти?
  • Нарешті, чи є довідковий матеріал, який синтезує основні результати узагальнення щодо SVM?

Список літератури :

Burges, JC (1998). "Навчальний посібник з векторних машин підтримки для розпізнавання візерунків", обмін даними та відкриття знань , 2: 121-167

Хасті, Т., Тібшірані, Р. і Фрідман, Дж. (2009). Елементи статистичного навчання , 2-е видання, Спрингер

Вапник, В. Н. (1998). Статистична теорія навчання , 1-е видання, John Wiley & Sons

Вапник, В. Н. (1999). "Огляд статистичної теорії навчання", операції IEEE в нейронних мережах , 10 (5): 988-999

Вапник, В. Н. (2000). Природа статистичної теорії навчання , 2-е видання, Спрінгер


посилання, що підсумовує сучасні (станом на 2008 рік) межі ризику для SVM: "Підтримка векторних машин" (Ingo Steinwart, Andreas Christmann, Springer 2008) .
зареєструватись

Відповіді:


3

Я не знаю детально літератури, про яку ви посилаєтесь, але я думаю, що вичерпний підсумок меж узагальнення, який має бути оновлений, можна знайти у Boucheron et al. (2004) (Посилання: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- Канберра-Австралія-лютий-2-14-2003-Тюбінген-Німеччина-серпень-4-16-2003-переглянуті-лекції.pdf # page = 176 )

Я буду накреслювати частину зв’язаного SVM у наступному, залишаючи деталі та доводити.

Перш ніж конкретно розглянути питання про зв’язаний SVM, ми повинні зрозуміти, чого намагаються досягти межі узагальнення.

Спочатку припустимо, що відома справжня ймовірність , тоді найкращим класифікатором буде класифікатор Байєса, тобто случаи P(Y=+1|X=x)

g={+1  ifP(Y=1|X=x)>0.51  otherwise

Мета теорії статистичного навчання зараз - знайти різницю між класифікатором класу (наприклад, SVM) і класифікатор Bayes, тобто Зауважимо , що є очікувані втрати наведені дані і є найкращим можливим класифікатор в моделі класу . Термін називається помилкою оцінки і часто фокусом, оскільки його можна обмежити набагато простіше, ніж помилку апроксимації (інший доданок). Я також опущу помилку наближення тут.C

g^n=argmingCLn(g)
L(g^n)L(g)=L(g^n)L(gc)+L(gc)L(g).
L(g)=El(g(X),Y)gcCZ=:L(g)L(g^n)

Помилка оцінки може бути додатково розкладена за допомогою Тепер це можна обмежити двома кроками:Z

Z=ZEZ+EZ.
  1. Пов'язуємо за допомогою нерівності МакДіармідаZEZ

  2. Пов’язаний зі складністю РадемахераEZRn(C)=EsupgC|1/ni=1nl(g(Xi),Yi)|

Використовуючи нерівність МакДіармідса, можна показати, що якщо функція втрати знаходиться в інтервалі не більше , крок перший приводить до межі де - рівень довіри. На другому кроці ми можемо показати, що Якщо у вас є дискретна функція втрат, тобто не-Lipschitz, наприклад 0-1 -витрата, вам знадобиться розмір VC для подальшого обмеження складності Rademacher. Однак для таких функцій L-lipchitz, як втрата шарніра, це може бути додатково обмежено деB

ZEZ2Bln(1/δ)2n,
δ
EZ2Rn(C),
Rn(C)λLR/n,

λпозначає регуляризатор. Оскільки для шарнірних втрат і (доведіть нерівність Гоші-Шварца) це ще більше спрощує. Нарешті, склавши всі результати разом, ми можемо пов'язати L=1B=1+λR
L(g^n)L(gc)2(1+λR)ln(1/δ)2n+4λLR/n
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.