Чому важливий вимір ВК?


12

У Вікіпедії сказано, що:

Вимір VC - це кардинальність найбільшого набору точок, який алгоритм може зруйнувати.

Наприклад, лінійний класифікатор має кардинальність n + 1. Моє запитання, чому нас хвилює? Більшість наборів даних, на яких ви робите лінійну класифікацію, мають тенденцію до дуже великих розмірів і містять багато точок.

Відповіді:


4

Що таке розмір ВК

Як зазначає @CPerkins, розмір ВК є мірою складності моделі. Це також можна визначити щодо здатності розбивати точки даних, як, як ви вже згадували, у Вікіпедії.

Основна проблема

  • Ми хочемо модель (наприклад, якийсь класифікатор), яка добре узагальнює небачені дані.
  • Ми обмежені певним обсягом вибіркових даних.

На наступному зображенні (узяте звідси ) показано деякі Моделі ( до ) різної складності (розмір VC), показані тут на осі x і називаються .S1Skгод

Компромісне зміщення

Зображення показують, що більш високий розмір ВК дозволяє зменшити емпіричний ризик (помилка, яку модель робить на вибіркових даних), але також вводить більш високий довірчий інтервал. Цей інтервал можна розглядати як впевненість у здатності моделі узагальнювати.

Низький розмір ВК (велика зміна)

Якщо ми використовуємо модель низької складності, ми вводимо якесь припущення (упередження) щодо набору даних, наприклад, використовуючи лінійний класифікатор, ми припускаємо, що дані можуть бути описані лінійною моделлю. Якщо це не так, нашу задану проблему неможливо вирішити лінійною моделлю, наприклад, тому що проблема має нелінійний характер. Ми закінчимось неякісною моделлю, яка не зможе вивчити структуру даних. Тому нам слід намагатися уникати сильної упередженості.

Високий розмір ВК (більший довірчий інтервал)

З іншого боку осі x ми бачимо моделі більш високої складності, які можуть мати таку велику потужність, що швидше запам’ятовуватимуть дані, а не вивчати її загальну базову структуру, тобто надмірну модель. Після усвідомлення цієї проблеми здається, що нам слід уникати складних моделей.

Це може здатися суперечливим, оскільки ми не будемо вводити зміщення, тобто мати низький розмір ВК, але також не повинен мати високий розмір ВК. Ця проблема має глибокі корені в теорії статистичного навчання і відома як зміщення-відхилення-компроміс . У цій ситуації ми повинні бути максимально складними та максимально спрощеними, тому, порівнюючи дві моделі, які закінчуються однаковою емпіричною помилкою, ми повинні використовувати менш складну.

Я сподіваюся, що я міг би показати вам, що за ідеєю розміру ВК стоїть більше.


1

Вимір VC - це кількість бітів інформації (зразків), необхідних для того, щоб знайти певний об'єкт (функцію) серед набору Nоб’єкти (функції) .

VСвимір походить від аналогічної концепції в теорії інформації. Теорія інформації почалася з спостереження Шеннона про наступне:

Якщо у вас є N об’єктів і серед них Nоб'єкти, які ви шукаєте для конкретного. Скільки бітів інформації вам потрібно, щоб знайти цей об’єкт ? Ви можете розділити набір об’єктів на дві половини і запитати "У якій половині знаходиться об'єкт, який я шукаю?" . Ви отримуєте "так", якщо воно є в першому таймі або "ні", якщо воно є у другому таймі. Іншими словами, ви отримуєте 1 біт інформації . Після цього ви задаєте те саме питання і розділяєте свій набір знову і знову, поки нарешті не знайдете потрібний об’єкт. Скільки бітів інформації вам потрібно ( так / ні відповіді)? Це чітколог2(N) біти інформації - подібно до проблеми бінарного пошуку з відсортованим масивом.

Вапник і Чорновенкіс задали аналогічне запитання щодо проблеми розпізнавання образів. Припустимо, у вас є набірN функцій st заданий вхід х, кожна функція виводить так чи ні (проблема контрольованої бінарної класифікації) і серед нихNфункції, які ви шукаєте для певної функції, яка дає правильні результати так / ні для даного набору данихD={(х1,у1),(х2,у2),...,(хл,ул)}. Ви можете задати питання: "Які функції повертають ні, а які функції повертають" так " для даноїхiз вашого набору даних. Оскільки ви знаєте, яка реальна відповідь - з даних про навчання, які у вас є, ви можете відкинути всі функції, які дають неправильну відповідь на деякіхi. Скільки бітів інформації вам потрібно? Або іншими словами: Скільки прикладів тренувань потрібно, щоб усунути всі ті неправильні функції? . Ось це невелика відмінність від спостережень Шеннона в теорії інформації. Ви не розділяєте свій набір функцій точно на половину (можливо, лише одна функція з)N дає неправильну відповідь на деякі хi), і, можливо, ваш набір функцій дуже великий і цього достатньо, щоб ви знайшли функцію, яка є ϵ-закрийте потрібну функцію, і ви хочете бути впевнені, що ця функція є ϵ-закрити ймовірністю 1-δ ((ϵ,δ)- Рамка PAC ), кількість бітів інформації (кількість зразків) вам буде потрібналог2N/δϵ.

Припустимо тепер, що серед безлічі Nфункцій немає функції, яка не допускає помилок. Як і раніше, вам достатньо знайти функцію, яка єϵ-закрити ймовірністю 1-δ. Кількість потрібних вам зразківлог2N/δϵ2.

Зауважте, що результати в обох випадках пропорційні лог2N - подібно до проблеми бінарного пошуку.

Тепер припустимо, що у вас є нескінченний набір функцій, і серед тих функцій ви хочете знайти функцію, яка є ϵ-закрити найкращу функцію з вірогідністю 1-δ. Припустимо (для простоти ілюстрації), що функції є афінними безперервними (SVM), і ви знайшли функцію, яка єϵ-закрити найкращу функцію. Якщо ви трохи перемістите свою функцію, це не змінить результатів класифікації, ви мали б іншу функцію, яка класифікується з тими ж результатами, що і перша. Ви можете взяти всі такі функції, які дають вам однакові результати класифікації (помилка класифікації) і зараховувати їх як єдину функцію, оскільки вони класифікують ваші дані з точно такою ж втратою (рядок на малюнку).

введіть тут опис зображення

___________________Боткі рядки (функції) класифікують точки з однаковим успіхом___________________

Скільки зразків потрібно, щоб знайти конкретну функцію з набору таких наборів (згадаймо, що ми розділили наші функції на набори функцій, де кожна функція дає однакові результати класифікації для заданого набору точок)? Це те, щоVС розмірність повідомляє - лог2N замінюється на VСоскільки у вас є нескінченна кількість безперервних функцій, які поділяються на набори функцій з однаковою помилкою класифікації для конкретних точок. Кількість потрібних вам зразківVС-лог(δ)ϵ якщо у вас є функція, яка розпізнає ідеально і VС-лог(δ)ϵ2 якщо ви не маєте ідеальної функції у своєму початковому наборі функцій.

Це є, VС параметр дає вам верхню межу (що не може бути покращена btw) для декількох зразків, які вам потрібні для досягнення ϵ помилка з ймовірністю 1-δ.


0

Розмір ВК - це міра складності моделі. Наприклад, з огляду на розмір VC Dvc, хорошим правилом є те, що вам слід мати n = 10xDvc точок даних, враховуючи складність вашої моделі.

Ви також можете використовувати його для створення верхньої межі помилки тесту.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.