Розуміння відсутності теореми про вільний обід у Класифікації класифікацій Дуда та ін


12

У мене є кілька питань по приводу позначень , використовуваних в розділі 9.2 Відсутності початкового переваги будь-якого класифікатора в Дуда, хартії і Лелека розпізнаванню . Спочатку дозвольте процитувати якийсь відповідний текст із книги:

  • Для простоти розглянемо двокатегорійну задачу, де навчальний набір складається з шаблонів та пов'язаних з ними міток категорії y_i = ± 1 для i = 1, ..., n, породжених невідомою цільовою функцією, яку потрібно вивчити, F ( x) , де y_i = F (x ^ i) .Dxiyi=±1i=1,...,nF(x)yi=F(xi)
  • Нехай H позначає (дискретний) набір гіпотез або можливі набори параметрів, які слід вивчити. Конкретна гіпотеза h(x)H може бути описана квантованими вагами в нейронній мережі, або параметрами 0 у функціональній моделі, або наборами рішень у дереві тощо.
  • Крім того, P(h) - це попередня ймовірність того, що алгоритм виробить гіпотезу h після тренування; зауважимо, що це не ймовірність правильності h .
  • Далі, P(h|D) позначає ймовірність того, що алгоритм дозволить отримати гіпотезу h , коли на підготовку даних D . У детермінованих алгоритмах навчання, таких як найближчий сусід та дерева рішень, P(h|D) буде скрізь нульовим, крім однієї гіпотези h . Для стохастичних методів (таких як нейронні мережі, навчені випадковим початковим вагою) або стохастичного навчання Больцмана, P(h|D) може бути широким поширенням.
  • Нехай E - помилка для функції нульової або іншої втрати.

Очікувана помилка класифікації, встановленої поза навчанням, коли справжня функція F(x) а ймовірність алгоритму навчання k го кандидата Pk(h(x)|D) задається

Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)

Теорема 9.1. (Без вільного обіду) Для будь-яких двох алгоритмів навчання P1(h|D) та P2(h|D) справедливими є наступні положення, незалежно від розподілу вибірки P(x) та кількості n балів навчання:

  1. Рівномірно усереднено для всіх цільових функцій ,E 1 ( E | F , n ) - E 2 ( E | F , n ) = 0FE1(E|F,n)E2(E|F,n)=0

  2. Для будь-якого фіксованого навчального набору , рівномірно усередненого , F E 1 ( E | F , D ) - E 2 ( E | F , D ) = 0DFE1(E|F,D)E2(E|F,D)=0

Частина 1 насправді говорить

FDP(D|F)[E1(E|F,n)E2(E|F,n)]=0

Частина 2 насправді говорить

F[E1(E|F,D)E2(E|F,D)]=0

Мої запитання є

  1. У формулі , тобто можу я замінити на і перемістити його поза сумою , адже це дійсно розподіл над заданий для го стохастичного алгоритму навчання? E k (E | F,n)=x D P(x)[Ek(E|F,n)P k | Г ) П к
    Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D),
    Pk(h(x)|D)x D h H DPk(h|D)xDhHDk
  2. Враховуючи, що алгоритм навчання го кандидата є стохастичним методом, чому у формулі немає суми понад , тобто ?E k ( E | F , n ) h h kEk(E|F,n)hhH
  3. Чим та відрізняються один від одного? E i (E | F,Ei(E|F,D)Ei(E|F,n)

    Чи означає коефіцієнт помилки поза тренуванням, заданий навчальним набором ?Ei(E|F,D)D

    Чи означає коефіцієнт помилки поза тренуванням, середній за весь набір тренувань із заданим розміром тренувань ? Якщо так, то чому частина 1 в теоремі NFL середня за навчальними наборами знову, записавши , і чому у формулі для , немає середнього показника для всіх навчальних наборів з урахуванням розміру тренувань ?n EEi(E|F,n)nD E k ( E | F , n )Ei(E|F,n)DEk(E|F,n)n

  4. У частині 1 теореми про NFL чи означає підсумовування всіх навчальних наборів із фіксованим розміром тренувань ?Dn
  5. Якщо подальше підсумовування всіх можливих значень у навчального розміру у частині 1, результат все одно дорівнює 0, правда?Nn
  6. У формулі , якщо я зміню на , тобто не обов'язково має бути поза навчальним набором, обидві частини будуть Теорема про NFL все ще є правдою?x DxEk(E|F,n)xDxx
  7. Якщо справжнє відношення між і не вважається детермінованою функцією як , а натомість умовними розподілами , або спільним розподілом що еквівалентно знаючи і (також дивіться моє інше запитання ), то я можу змінити на (зі дивним вказано в частині 1 та 2). Чи все ще дві частини теореми про НФЛ вірні?y F y = F ( x ) P ( y | x ) P ( x , y ) P ( y | x ) P ( x ) E k ( E | F , n ) E k ( E | P ( x , y ) , n ) = ExyFy=F(x)P(y|x)P(x,y)P(y|x)P(x)Ek(E|F,n)P k ( h ( x ) | D )
    Ek(E|P(x,y),n)=Ex,y[1δ(y,h(x))]Pk(h(x)|D)
    Pk(h(x)|D)

Дякую та з повагою!


Чи є Дірака / Kronecker-дельта? УE k ( E | F , n ) = x D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D )δ
Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)

Чи ця теорема про вільний обід не збігається з проблемою зупинки? Вони пов'язані?

Відповіді:


6

Я відповім на запитання, на які, думаю, знаю відповіді.

  1. Ця відповідь ні, тому що ви вибираєте який не входив до встановленого набору і тому залежить від .xDhx
  2. h оцінюється лише при значеннях у тестовому наборі, щоб отримати очікуваний коефіцієнт помилок, тому він не оцінюється протягом усього набору а лише для дискретного набору у тестовому наборі.xHx
  3. FD E i (E | F,n)nxEi(E|F,D) є очікуваним від частоти помилок навчання набору заданої функції і навчальну множину . Але Я думаю, що це інакше, оскільки ви обумовлюєте лише кількість навчальних балів а не фактичні значення . Але це дивно, враховуючи наступні твердження.FDEi(E|F,n)nx
  4. n D n D DD - сукупність навчальних векторів. Є навчання вектори . Таким чином , ви підсумовування по фіксованому навчання векторів в . Існує тільки один набір .nDnDD
  5. Я думаю, що відповідь на 5 - ні. Позначення здається трохи заплутаним.

Не можу коментувати 6 та 7.


2
+1. Ласкаво просимо на сайт, я великий шанувальник ваших відгуків про Amazon. Вибачте з моєї презумпції в редагуванні, математичне позначення здебільшого робиться шляхом додавання $ з обох сторін чогось. Якщо натиснути на жовтий круг-? у верхньому правому куті під час написання ви побачите посилання на "розширену допомогу", яке дасть більше інформації; Крім того, ви можете клацнути правою кнопкою миші на деякому наявному mathjax (наприклад, будь-який із наведених вище) та вибрати "Показати математику як -> команди TeX", щоб побачити, як це робиться.
gung - Відновіть Моніку

2
Іншими словами, @gung говорить: Цей сайт підтримує (майже) саме так, як ви його очікували, включаючи математику дисплея. Ласкаво просимо на сайт. LATEX
кардинал

@Michael Будь ласка, дозвольте мені привітатись із цими іншими: я рада бачити вас тут. (Майкл зробив виключно обізнаний внесок у списки дискусій Американської статистичної асоціації.)
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.