Розуміння відсутності теореми про вільний обід у Класифікації класифікацій Дуда та ін

У мене є кілька питань по приводу позначень , використовуваних в розділі 9.2 Відсутності початкового переваги будь-якого класифікатора в Дуда, хартії і Лелека розпізнаванню . Спочатку дозвольте процитувати якийсь відповідний текст із книги:

Для простоти розглянемо двокатегорійну задачу, де навчальний набір складається з шаблонів та пов'язаних з ними міток категорії для породжених невідомою цільовою функцією, яку потрібно вивчити, , де . $D$ $x^i$ $y_i = ± 1$ $i = 1,..., n$ $F(x)$ $y_i = F(x^i)$

Нехай $H$ позначає (дискретний) набір гіпотез або можливі набори параметрів, які слід вивчити. Конкретна гіпотеза $h(x) \in H$ може бути описана квантованими вагами в нейронній мережі, або параметрами 0 у функціональній моделі, або наборами рішень у дереві тощо.

Крім того, $P(h)$ - це попередня ймовірність того, що алгоритм виробить гіпотезу $h$ після тренування; зауважимо, що це не ймовірність правильності $h$ .

Далі, $P(h|D)$ позначає ймовірність того, що алгоритм дозволить отримати гіпотезу $h$ , коли на підготовку даних $D$ . У детермінованих алгоритмах навчання, таких як найближчий сусід та дерева рішень, $P(h|D)$ буде скрізь нульовим, крім однієї гіпотези $h$ . Для стохастичних методів (таких як нейронні мережі, навчені випадковим початковим вагою) або стохастичного навчання Больцмана, $P(h|D)$ може бути широким поширенням.

Нехай $E$ - помилка для функції нульової або іншої втрати.

Очікувана помилка класифікації, встановленої поза навчанням, коли справжня функція $F(x)$ а ймовірність алгоритму навчання $k$ го кандидата $P_k(h(x)|D)$ задається
$E_{k} (E | F, n) = \sum_{x \notin D} P (x) [1 - δ (F (x), h (x))] P_{k} (h (x) | D)$ $\mathcal{E}_k(E|F,n) = \sum_{x\notin D} P(x) [1-\delta(F(x), h(x))] P_k(h(x)|D)$
Теорема 9.1. (Без вільного обіду) Для будь-яких двох алгоритмів навчання $P_1 (h |D)$ та $P_2(h|D)$ справедливими є наступні положення, незалежно від розподілу вибірки $P(x)$ та кількості $n$ балів навчання:

Рівномірно усереднено для всіх цільових функцій , $F$ $\mathcal{E}_1 (E|F, n) — \mathcal{E}_2(E|F, n) = 0$

Для будь-якого фіксованого навчального набору , рівномірно усередненого , $D$ $F$ $\mathcal{E}_1 (E|F, D) — \mathcal{E}_2(E|F, D) = 0$

Частина 1 насправді говорить
$\sum_{F} \sum_{D} P (D | F) [E_{1} (E | F, n) — E_{2} (E | F, n)] = 0$ $\sum_F \sum_D P(D|F) [\mathcal{E}_1 (E|F, n) — \mathcal{E}_2(E|F, n)] = 0$
Частина 2 насправді говорить
$\sum_{F} [E_{1} (E | F, D) — E_{2} (E | F, D)] = 0$ $\sum_F [\mathcal{E}_1 (E|F, D) — \mathcal{E}_2(E|F, D)] = 0$

Мої запитання є

У формулі , тобто можу я замінити на і перемістити його поза сумою , адже це дійсно розподіл над заданий для го стохастичного алгоритму навчання? $\mathcal{E}_k(E|F,n)$ $E_{k} (E | F, n) = \sum_{x \notin D} P (x) [1 - δ (F (x), h (x))] P_{k} (h (x) | D),$ $\mathcal{E}_k(E|F,n) = \sum_{x\notin D} P(x) [1-\delta(F(x), h(x))] P_k(h(x)|D),$ $P_k(h(x)|D)$ $P_k(h|D)$ $\sum_{x \notin D}$ $h$ $H$ $D$ $k$
Враховуючи, що алгоритм навчання го кандидата є стохастичним методом, чому у формулі немає суми понад , тобто ? $k$ $\mathcal{E}_k(E|F,n)$ $h$ $\sum_{h \in H}$
Чим та відрізняються один від одного? $\mathcal{E}_i (E|F, D)$ $\mathcal{E}_i (E|F, n)$

Чи означає коефіцієнт помилки поза тренуванням, заданий навчальним набором ? $\mathcal{E}_i (E|F, D)$ $D$

Чи означає коефіцієнт помилки поза тренуванням, середній за весь набір тренувань із заданим розміром тренувань ? Якщо так, то чому частина 1 в теоремі NFL середня за навчальними наборами знову, записавши , і чому у формулі для , немає середнього показника для всіх навчальних наборів з урахуванням розміру тренувань ? $\mathcal{E}_i (E|F, n)$ $n$ $\mathcal{E}_i (E|F, n)$ $\sum_D$ $\mathcal{E}_k(E|F,n)$ $n$
У частині 1 теореми про NFL чи означає підсумовування всіх навчальних наборів із фіксованим розміром тренувань ? $\sum_D$ $n$
Якщо подальше підсумовування всіх можливих значень у навчального розміру у частині 1, результат все одно дорівнює 0, правда? $\mathbb{N}$ $n$
У формулі , якщо я зміню на , тобто не обов'язково має бути поза навчальним набором, обидві частини будуть Теорема про NFL все ще є правдою? $\mathcal{E}_k(E|F,n)$ $\sum_{x \notin D}$ $\sum_x$ $x$
Якщо справжнє відношення між і не вважається детермінованою функцією як , а натомість умовними розподілами , або спільним розподілом що еквівалентно знаючи і (також дивіться моє інше запитання ), то я можу змінити на (зі дивним вказано в частині 1 та 2). Чи все ще дві частини теореми про НФЛ вірні? $x$ $y$ $F$ $y=F(x)$ $P(y|x)$ $P(x,y)$ $P(y|x)$ $P(x)$ $\mathcal{E}_k (E|F,n)$ $E_{k} (E | P (x, y), n) = E_{x, y} [1 - δ (y, h (x))] P_{k} (h (x) | D)$ $\mathcal{E}_k(E|P(x,y),n) = \mathcal{E}_{x,y} [1-\delta(y, h(x))] P_k(h(x)|D)$ $P_k(h(x)|D)$

Дякую та з повагою!

machine-learning

— Тім
джерело

Чи є Дірака / Kronecker-дельта? У

δ

$\delta$

E_{k} (E | F, n) = \sum_{x \notin D} P (x) [1 - δ (F (x), h (x))] P_{k} (h (x) | D)

$\mathcal{E}_k(E|F,n) = \sum_{x\notin D} P(x) [1-\delta(F(x), h(x))] P_k(h(x)|D)$

Чи ця теорема про вільний обід не збігається з проблемою зупинки? Вони пов'язані?

Я відповім на запитання, на які, думаю, знаю відповіді.

Ця відповідь ні, тому що ви вибираєте який не входив до встановленого набору і тому залежить від . $x$ $D$ $h$ $x$
$h$ оцінюється лише при значеннях у тестовому наборі, щоб отримати очікуваний коефіцієнт помилок, тому він не оцінюється протягом усього набору а лише для дискретного набору у тестовому наборі. $x$ $H$ $x$
$\mathcal{E}_i(E|F, D)$ є очікуваним від частоти помилок навчання набору заданої функції і навчальну множину . Але Я думаю, що це інакше, оскільки ви обумовлюєте лише кількість навчальних балів а не фактичні значення . Але це дивно, враховуючи наступні твердження. $F$ $D$ $\mathcal{E}_i(E|F, n)$ $n$ $x$
$D$ - сукупність навчальних векторів. Є навчання вектори . Таким чином , ви підсумовування по фіксованому навчання векторів в . Існує тільки один набір . $n$ $D$ $n$ $D$ $D$
Я думаю, що відповідь на 5 - ні. Позначення здається трохи заплутаним.

Не можу коментувати 6 та 7.

— Майкл Р. Черник
джерело

+1. Ласкаво просимо на сайт, я великий шанувальник ваших відгуків про Amazon. Вибачте з моєї презумпції в редагуванні, математичне позначення здебільшого робиться шляхом додавання $ з обох сторін чогось. Якщо натиснути на жовтий круг-? у верхньому правому куті під час написання ви побачите посилання на "розширену допомогу", яке дасть більше інформації; Крім того, ви можете клацнути правою кнопкою миші на деякому наявному mathjax (наприклад, будь-який із наведених вище) та вибрати "Показати математику як -> команди TeX", щоб побачити, як це робиться.

— gung - Відновіть Моніку

Іншими словами, @gung говорить: Цей сайт підтримує (майже) саме так, як ви його очікували, включаючи математику дисплея. Ласкаво просимо на сайт.

L A T E X

$\LaTeX$

— кардинал

@Michael Будь ласка, дозвольте мені привітатись із цими іншими: я рада бачити вас тут. (Майкл зробив виключно обізнаний внесок у списки дискусій Американської статистичної асоціації.)

— whuber