Мене цікавлять теоретичні результати щодо узагальнення здатності підтримуючих векторних машин, наприклад, межі щодо ймовірності помилки класифікації та розмірності Вапніка-Червоненкіса (ВК) цих машин. Однак, читаючи літературу, у мене склалося враження, що деякі подібні повторювані результати, як правило, незначно відрізняються від автора до автора, особливо щодо технічних умов, необхідних для певного виконання.
Далі я згадаю структуру проблеми SVM та стан 3 основних результатів узагальнення, які я періодично знаходив у тій чи іншій формі я даю 3 основні посилання протягом усієї експозиції.
Налаштування проблеми :
Припустимо, у нас є вибірка даних незалежних і однаково розподілених (iid) пар де для всіх , і . Ми побудуємо підтримуючу векторну машину (SVM), яка максимізує мінімальний запас між роздільною гіперпланкою, визначеною , і і найближча точка серед , щоб розділити два класи, визначені та . Ми дозволяємо SVM допускати деякі помилки через м'який запас, вводячи слабкі змінні але для наочної простоти ми ігноруємо можливість ядер. Параметри рішення і отримують шляхом розв'язання наступної опуклої програми квадратичної оптимізації:
Нас цікавить можливість узагальнення цієї машини.
Розмір Вапник-Червоненкіс :
Перший результат зумовлений (Vapnik, 2000), в якому він обмежує розмір ВК роздільної гіперплани, теорема 5.1. Нехай, ми маємо:
Цей результат знову можна знайти в (Burges, 1998), теорема 6. Однак, здається, теорема Берджеса є більш обмежувальною, ніж той самий результат Вапніка, оскільки йому потрібно визначити спеціальну категорію класифікаторів, відому як класифікатори, стійкі до розриву до якої належить СВМ, констатувати теорему.
Обмежує ймовірність помилок :
В (Вапник, 2000), теорема 5.2 на сторінці 139 дає таке обмеження на здатність узагальнення SVM:
де - кількість векторів підтримки SVM. Ці результати, здається, знову знайдемо в (Burges, 1998), рівняннях (86) та (93) відповідно. Але знову ж таки, здається, що Берджес відрізняється від Вапніка, оскільки він розділяє компоненти в межах мінімальної функції, наведеної вище, в різних теоремах, при різних умовах.
Інший результат, що з’являється в (Vapnik, 2000), с.133, такий. Припускаючи знову, що для всіх , і дозволяючи і , ми визначаємо дорівнює:
Ми також визначаємо як кількість неправильно класифікованих прикладів навчання SVM. Тоді з ймовірністю ми можемо стверджувати, що ймовірність того, що тестовий приклад не буде відокремлено правильно гіперпланкою -margin тобто SVM з запасом має обмежену формулу :
Однак у (Hastie, Tibshirani and Friedman, 2009), стр.438, виявлено дуже подібний результат:
Висновок :
Мені здається, що між цими результатами існує певна ступінь конфліктності. З іншого боку, дві з цих посилань, хоч і є канонічними в літературі про SVM, починають бути трохи старішими (1998 та 2000 рр.), Особливо якщо врахувати, що дослідження алгоритму SVM розпочалися в середині дев'яностих.
Мої запитання:
- Чи є ці результати і сьогодні чи справді вони підтверджені помилково?
- Чи були виведені більш жорсткі межі з відносно слабкими умовами відтоді? Якщо так, то ким і де я можу їх знайти?
- Нарешті, чи є довідковий матеріал, який синтезує основні результати узагальнення щодо SVM?
Список літератури :
Вапник, В. Н. (1998). Статистична теорія навчання , 1-е видання, John Wiley & Sons
Вапник, В. Н. (2000). Природа статистичної теорії навчання , 2-е видання, Спрінгер