Чому важливий вимір ВК?

12

Вимір VC - це кардинальність найбільшого набору точок, який алгоритм може зруйнувати.

Наприклад, лінійний класифікатор має кардинальність n + 1. Моє запитання, чому нас хвилює? Більшість наборів даних, на яких ви робите лінійну класифікацію, мають тенденцію до дуже великих розмірів і містять багато точок.

classification algorithms vc-dimension

— Недоступний студенти
джерело

4

Що таке розмір ВК

Як зазначає @CPerkins, розмір ВК є мірою складності моделі. Це також можна визначити щодо здатності розбивати точки даних, як, як ви вже згадували, у Вікіпедії.

Основна проблема

Ми хочемо модель (наприклад, якийсь класифікатор), яка добре узагальнює небачені дані.
Ми обмежені певним обсягом вибіркових даних.

На наступному зображенні (узяте звідси ) показано деякі Моделі ( до ) різної складності (розмір VC), показані тут на осі x і називаються . $\mathcal{S_1}$ $\mathcal{S_k}$ $h$

Зображення показують, що більш високий розмір ВК дозволяє зменшити емпіричний ризик (помилка, яку модель робить на вибіркових даних), але також вводить більш високий довірчий інтервал. Цей інтервал можна розглядати як впевненість у здатності моделі узагальнювати.

Низький розмір ВК (велика зміна)

Якщо ми використовуємо модель низької складності, ми вводимо якесь припущення (упередження) щодо набору даних, наприклад, використовуючи лінійний класифікатор, ми припускаємо, що дані можуть бути описані лінійною моделлю. Якщо це не так, нашу задану проблему неможливо вирішити лінійною моделлю, наприклад, тому що проблема має нелінійний характер. Ми закінчимось неякісною моделлю, яка не зможе вивчити структуру даних. Тому нам слід намагатися уникати сильної упередженості.

Високий розмір ВК (більший довірчий інтервал)

З іншого боку осі x ми бачимо моделі більш високої складності, які можуть мати таку велику потужність, що швидше запам’ятовуватимуть дані, а не вивчати її загальну базову структуру, тобто надмірну модель. Після усвідомлення цієї проблеми здається, що нам слід уникати складних моделей.

Це може здатися суперечливим, оскільки ми не будемо вводити зміщення, тобто мати низький розмір ВК, але також не повинен мати високий розмір ВК. Ця проблема має глибокі корені в теорії статистичного навчання і відома як зміщення-відхилення-компроміс . У цій ситуації ми повинні бути максимально складними та максимально спрощеними, тому, порівнюючи дві моделі, які закінчуються однаковою емпіричною помилкою, ми повинні використовувати менш складну.

Я сподіваюся, що я міг би показати вам, що за ідеєю розміру ВК стоїть більше.

— Мінато
джерело

1

Вимір VC - це кількість бітів інформації (зразків), необхідних для того, щоб знайти певний об'єкт (функцію) серед набору $N$ об’єкти (функції) .

$VC$ вимір походить від аналогічної концепції в теорії інформації. Теорія інформації почалася з спостереження Шеннона про наступне:

Якщо у вас є $N$ об’єктів і серед них $N$ об'єкти, які ви шукаєте для конкретного. Скільки бітів інформації вам потрібно, щоб знайти цей об’єкт ? Ви можете розділити набір об’єктів на дві половини і запитати "У якій половині знаходиться об'єкт, який я шукаю?" . Ви отримуєте "так", якщо воно є в першому таймі або "ні", якщо воно є у другому таймі. Іншими словами, ви отримуєте 1 біт інформації . Після цього ви задаєте те саме питання і розділяєте свій набір знову і знову, поки нарешті не знайдете потрібний об’єкт. Скільки бітів інформації вам потрібно ( так / ні відповіді)? Це чітко $log_2(N)$ біти інформації - подібно до проблеми бінарного пошуку з відсортованим масивом.

Вапник і Чорновенкіс задали аналогічне запитання щодо проблеми розпізнавання образів. Припустимо, у вас є набір $N$ функцій st заданий вхід $x$ , кожна функція виводить так чи ні (проблема контрольованої бінарної класифікації) і серед них $N$ функції, які ви шукаєте для певної функції, яка дає правильні результати так / ні для даного набору даних $D=\{(x_1,y_1), (x_2, y_2), ..., (x_l, y_l)\}$ . Ви можете задати питання: "Які функції повертають ні, а які функції повертають" так " для даної $x_i$ з вашого набору даних. Оскільки ви знаєте, яка реальна відповідь - з даних про навчання, які у вас є, ви можете відкинути всі функції, які дають неправильну відповідь на деякі $x_i$ . Скільки бітів інформації вам потрібно? Або іншими словами: Скільки прикладів тренувань потрібно, щоб усунути всі ті неправильні функції? . Ось це невелика відмінність від спостережень Шеннона в теорії інформації. Ви не розділяєте свій набір функцій точно на половину (можливо, лише одна функція з) $N$ дає неправильну відповідь на деякі $x_i$ ), і, можливо, ваш набір функцій дуже великий і цього достатньо, щоб ви знайшли функцію, яка є $\epsilon$ -закрийте потрібну функцію, і ви хочете бути впевнені, що ця функція є $\epsilon$ -закрити ймовірністю $1-\delta$ ( $(\epsilon, \delta)$ - Рамка PAC ), кількість бітів інформації (кількість зразків) вам буде потрібна $\frac{log_2N/\delta}{\epsilon}$ .

Припустимо тепер, що серед безлічі $N$ функцій немає функції, яка не допускає помилок. Як і раніше, вам достатньо знайти функцію, яка є $\epsilon$ -закрити ймовірністю $1-\delta$ . Кількість потрібних вам зразків $\frac{log_2N/\delta}{\epsilon^2}$ .

Зауважте, що результати в обох випадках пропорційні $log_2N$ - подібно до проблеми бінарного пошуку.

Тепер припустимо, що у вас є нескінченний набір функцій, і серед тих функцій ви хочете знайти функцію, яка є $\epsilon$ -закрити найкращу функцію з вірогідністю $1-\delta$ . Припустимо (для простоти ілюстрації), що функції є афінними безперервними (SVM), і ви знайшли функцію, яка є $\epsilon$ -закрити найкращу функцію. Якщо ви трохи перемістите свою функцію, це не змінить результатів класифікації, ви мали б іншу функцію, яка класифікується з тими ж результатами, що і перша. Ви можете взяти всі такі функції, які дають вам однакові результати класифікації (помилка класифікації) і зараховувати їх як єдину функцію, оскільки вони класифікують ваші дані з точно такою ж втратою (рядок на малюнку).

^{___________________Боткі рядки (функції) класифікують точки з однаковим успіхом___________________}

Скільки зразків потрібно, щоб знайти конкретну функцію з набору таких наборів (згадаймо, що ми розділили наші функції на набори функцій, де кожна функція дає однакові результати класифікації для заданого набору точок)? Це те, що $VC$ розмірність повідомляє - $log_2N$ замінюється на $VC$ оскільки у вас є нескінченна кількість безперервних функцій, які поділяються на набори функцій з однаковою помилкою класифікації для конкретних точок. Кількість потрібних вам зразків $\frac{VC -log(\delta)}{\epsilon}$ якщо у вас є функція, яка розпізнає ідеально і $\frac{VC - log(\delta)}{\epsilon^2}$ якщо ви не маєте ідеальної функції у своєму початковому наборі функцій.

Це є, $VC$ параметр дає вам верхню межу (що не може бути покращена btw) для декількох зразків, які вам потрібні для досягнення $\epsilon$ помилка з ймовірністю $1-\delta$ .

— Влад
джерело

0

Розмір ВК - це міра складності моделі. Наприклад, з огляду на розмір VC Dvc, хорошим правилом є те, що вам слід мати n = 10xDvc точок даних, враховуючи складність вашої моделі.

Ви також можете використовувати його для створення верхньої межі помилки тесту.

— CPerkins
джерело