Як обчислити розмір VC?

12

Я вивчаю машинне навчання, і я хотів би знати, як обчислити розмір VC.

Наприклад:

$h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases}$ , з параметрами $(a,b) ∈ R^2$ .

Який розмір VC?

machine-learning classification vc-theory

10

Розмір VC - це оцінка здатності двійкового класифікатора. Якщо ви можете знайти набір з точок, так що він може бути зруйнований класифікатором (тобто правильно класифікувати всі можливі мітки), і ви не можете знайти жодного набору з балів, який можна зруйнувати (тобто для будь-якого набору балів є принаймні один порядок маркування, щоб класифікатор не міг розділити всі точки правильно), тоді розмір VC дорівнює . $n$ $2^n$ $n+1$ $n+1$ $n$

У вашому випадку спочатку розгляньте дві точки і , такі, що . Тоді є можливі маркування $x_1$ $x_2$ $x_1 < x_2$ $2^2=4$

, $x_1:1$ $x_2:1$
, $x_1:0$ $x_2:0$
, $x_1:1$ $x_2:0$
, $x_1:0$ $x_2:1$

Всі маркування можна досягти за допомогою класифікатора , встановивши параметри таким, що $h$ $a<b \in R$

$a<x_1<x_2<b$
$x_1<x_2<a<b$
$a<x_1<b<x_2$
$x_1<a<x_2<b$

відповідно. (Власне, можна вважати wlog, але достатньо знайти один набір, який можна зруйнувати.) $x_1 < x_2$

Тепер розглянемо три довільних (!) Точки , , і wlog припустимо , тоді ви не можете досягти маркування (1,0,1). Як і у випадку 3 вище, мітки : 1 і : 0 означають, . Що означає > b і, отже, мітка $x_1$ $x_2$ $x_3$ $x_1<x_2<x_3$ $x_1$ $x_2$ $a<x_1<b<x_2$ $x_3$ $x_3$ має бути 0. Таким чином, класифікатор не може зруйнувати жоден набір з трьох точок, і тому розмір VC дорівнює 2.

-

Можливо, це стає зрозумілішим за допомогою більш корисного класифікатора. Розглянемо гіперплани (тобто лінії в 2D).

Легко знайти набір з трьох точок, які можна правильно класифікувати, незалежно від того, як вони позначені:

Для всіх можливих міток ми можемо знайти гіперплан, який їх ідеально розділяє. $2^3=8$

Однак ми не можемо знайти жодного набору з 4-х точок, щоб ми могли правильно класифікувати всі можливих маркування. Замість офіційного доказу я намагаюся представити візуальний аргумент: $2^4=16$

Припустимо, що 4 точки утворюють фігуру з 4 сторін. Тоді неможливо знайти гіперплан, який би міг правильно розділити точки, якщо позначити протилежні кути однаковою міткою:

Якщо вони не утворюють фігуру з чотирьох сторін, є два "граничні випадки": "Зовнішні" точки повинні або утворювати трикутник, або всі утворювати пряму лінію. У випадку трикутника легко помітити, що маркування, де «внутрішня» точка (або точка між двома кутами) позначена різною від інших, не може бути досягнута:

У випадку з відрізком ліній застосовується та ж ідея. Якщо кінцеві точки позначені інакше, ніж одна з інших точок, їх не можна розділити гіперпланом.

Оскільки ми охопили всі можливі формування з 4 балів у 2D, ми можемо зробити висновок, що немає 4 балів, які можна зруйнувати. Отже, розмір ВК повинен бути 3.

— oW_
джерело

1

> Але функція може досягати x1 = 0, x2 = 0, x3 = 0. Це потрібно для досягнення всіх міток?

— 铭声孙

Я задав подібне запитання тут datascience.stackexchange.com/questions/39064/…, що в контексті функції лінійної гіпотези. Чи можете ви допомогти відповісти на це?

— Suhail Gupta

3

Розмір VC класифікатора визначається наступним чином:

VC = 1
found = False
while True:
    for point_distribution in all possible point distributions of VC+1 points:
        allcorrect = True
        for classdist in every way the classes could be assigned to the classes:
            adjust classifier
            if classifier can't classify everything correct:
                allcorrect = False
                break
        if allcorrect:
            VC += 1
            continue
    break

Таким чином, має бути лише один спосіб розмістити три бали, щоб усі можливі розподіли класів серед цього розміщення точок могли бути класифіковані правильним чином.

Якщо не поставити три точки на пряму, сприйняття виходить правильно. Але немає способу, щоб сприйняття класифікувало всі можливі розподіли класів на 4 бали, незалежно від того, як ви розміщуєте бали

Ваш приклад

$\mathbb{R}$

VC-вимір 2: Він може правильно класифікувати всі чотири ситуації.

Бали: 0 і 42
Поширення:
- $a = 1337, b=3141$
- $a = 40, b = 1337$
- $a = -1, b = 1$
- $a = -1, b = 1337$

VC-вимір 3: Ні, це не працює. Уявіть собі заняття trueта falseїх замовлення на зразок True False True. Ваш класифікатор не може з цим впоратися. Отже, він має VC-розмір 2.

Доказ

$x_1, x_2, x_3 \in \mathbb{R}$ $x_1 < x_2 < x_3$

$x_1$ $x_2$ $x_3$

$x_1$

a \leq x_{1} \leq b

$a \leq x_1 \leq b$

x_{2}

$x_2$

x_{2} < a or b < x_{2}

$x_2 < a \qquad\text{ or }\qquad b < x_2$

a \leq x_{1}

$a \leq x_1$

x_{1} < x_{2}

$x_1 < x_2$

b < x_{2}

$b < x_2$

a \leq x_{1} \leq b < x_{2} < x_{3}

$a \leq x_1 \leq b < x_2 < x_3$

x_{3}

$x_3$

a \leq x_{3} \leq b

$a \leq x_3 \leq b$

b < x_{3}

$b < x_3$ . Отже, неможливо правильно класифікувати всі розподіли класів будь-яких 3 балів за допомогою цього класифікатора. Отже, він не має розмірності 3 ВК.

— Мартін Тома
джерело

1

постійний класифікатор має розмір VC 0 (хоча можна стверджувати, що це не слід вважати класифікатором в першу чергу)

— oW_

1

Авжеж. Але так, я б не назвав систему, яка взагалі не може адаптуватись до даних класифікатором у контексті машинного навчання.

— Мартін Тома