Вимір VC - це кількість бітів інформації (зразків), необхідних для того, щоб знайти певний об'єкт (функцію) серед набору Nоб’єкти (функції) .
VСвимір походить від аналогічної концепції в теорії інформації. Теорія інформації почалася з спостереження Шеннона про наступне:
Якщо у вас є N об’єктів і серед них Nоб'єкти, які ви шукаєте для конкретного. Скільки бітів інформації вам потрібно, щоб знайти цей об’єкт ? Ви можете розділити набір об’єктів на дві половини і запитати "У якій половині знаходиться об'єкт, який я шукаю?" . Ви отримуєте "так", якщо воно є в першому таймі або "ні", якщо воно є у другому таймі. Іншими словами, ви отримуєте 1 біт інформації . Після цього ви задаєте те саме питання і розділяєте свій набір знову і знову, поки нарешті не знайдете потрібний об’єкт. Скільки бітів інформації вам потрібно ( так / ні відповіді)? Це чіткол ог2( N) біти інформації - подібно до проблеми бінарного пошуку з відсортованим масивом.
Вапник і Чорновенкіс задали аналогічне запитання щодо проблеми розпізнавання образів. Припустимо, у вас є набірN функцій st заданий вхід х, кожна функція виводить так чи ні (проблема контрольованої бінарної класифікації) і серед нихNфункції, які ви шукаєте для певної функції, яка дає правильні результати так / ні для даного набору данихD = { (х1,у1) , (х2,у2) , . . . , (хл,ул) }. Ви можете задати питання: "Які функції повертають ні, а які функції повертають" так " для даноїхiз вашого набору даних. Оскільки ви знаєте, яка реальна відповідь - з даних про навчання, які у вас є, ви можете відкинути всі функції, які дають неправильну відповідь на деякіхi. Скільки бітів інформації вам потрібно? Або іншими словами: Скільки прикладів тренувань потрібно, щоб усунути всі ті неправильні функції? . Ось це невелика відмінність від спостережень Шеннона в теорії інформації. Ви не розділяєте свій набір функцій точно на половину (можливо, лише одна функція з)N дає неправильну відповідь на деякі хi), і, можливо, ваш набір функцій дуже великий і цього достатньо, щоб ви знайшли функцію, яка є ϵ-закрийте потрібну функцію, і ви хочете бути впевнені, що ця функція є ϵ-закрити ймовірністю 1 - δ (( ϵ , δ)- Рамка PAC ), кількість бітів інформації (кількість зразків) вам буде потрібнал ог2N/ δϵ.
Припустимо тепер, що серед безлічі Nфункцій немає функції, яка не допускає помилок. Як і раніше, вам достатньо знайти функцію, яка єϵ-закрити ймовірністю 1 - δ. Кількість потрібних вам зразківл ог2N/ δϵ2.
Зауважте, що результати в обох випадках пропорційні л ог2N - подібно до проблеми бінарного пошуку.
Тепер припустимо, що у вас є нескінченний набір функцій, і серед тих функцій ви хочете знайти функцію, яка є ϵ-закрити найкращу функцію з вірогідністю 1 - δ. Припустимо (для простоти ілюстрації), що функції є афінними безперервними (SVM), і ви знайшли функцію, яка єϵ-закрити найкращу функцію. Якщо ви трохи перемістите свою функцію, це не змінить результатів класифікації, ви мали б іншу функцію, яка класифікується з тими ж результатами, що і перша. Ви можете взяти всі такі функції, які дають вам однакові результати класифікації (помилка класифікації) і зараховувати їх як єдину функцію, оскільки вони класифікують ваші дані з точно такою ж втратою (рядок на малюнку).
___________________Боткі рядки (функції) класифікують точки з однаковим успіхом___________________
Скільки зразків потрібно, щоб знайти конкретну функцію з набору таких наборів (згадаймо, що ми розділили наші функції на набори функцій, де кожна функція дає однакові результати класифікації для заданого набору точок)? Це те, щоVС розмірність повідомляє - л ог2N замінюється на VСоскільки у вас є нескінченна кількість безперервних функцій, які поділяються на набори функцій з однаковою помилкою класифікації для конкретних точок. Кількість потрібних вам зразківVС- л о г( δ)ϵ якщо у вас є функція, яка розпізнає ідеально і VС- л о г( δ)ϵ2 якщо ви не маєте ідеальної функції у своєму початковому наборі функцій.
Це є, VС параметр дає вам верхню межу (що не може бути покращена btw) для декількох зразків, які вам потрібні для досягнення ϵ помилка з ймовірністю 1 - δ.