У мене є кілька питань по приводу позначень , використовуваних в розділі 9.2 Відсутності початкового переваги будь-якого класифікатора в Дуда, хартії і Лелека розпізнаванню . Спочатку дозвольте процитувати якийсь відповідний текст із книги:
- Для простоти розглянемо двокатегорійну задачу, де навчальний набір складається з шаблонів та пов'язаних з ними міток категорії y_i = ± 1 для i = 1, ..., n, породжених невідомою цільовою функцією, яку потрібно вивчити, F ( x) , де y_i = F (x ^ i) .
- Нехай позначає (дискретний) набір гіпотез або можливі набори параметрів, які слід вивчити. Конкретна гіпотеза може бути описана квантованими вагами в нейронній мережі, або параметрами 0 у функціональній моделі, або наборами рішень у дереві тощо.
- Крім того, - це попередня ймовірність того, що алгоритм виробить гіпотезу після тренування; зауважимо, що це не ймовірність правильності .
- Далі, позначає ймовірність того, що алгоритм дозволить отримати гіпотезу , коли на підготовку даних . У детермінованих алгоритмах навчання, таких як найближчий сусід та дерева рішень, буде скрізь нульовим, крім однієї гіпотези . Для стохастичних методів (таких як нейронні мережі, навчені випадковим початковим вагою) або стохастичного навчання Больцмана, може бути широким поширенням.
- Нехай - помилка для функції нульової або іншої втрати.
Очікувана помилка класифікації, встановленої поза навчанням, коли справжня функція а ймовірність алгоритму навчання го кандидата задається
Теорема 9.1. (Без вільного обіду) Для будь-яких двох алгоритмів навчання та справедливими є наступні положення, незалежно від розподілу вибірки та кількості балів навчання:
Рівномірно усереднено для всіх цільових функцій ,E 1 ( E | F , n ) - E 2 ( E | F , n ) = 0
Для будь-якого фіксованого навчального набору , рівномірно усередненого , F E 1 ( E | F , D ) - E 2 ( E | F , D ) = 0
Частина 1 насправді говорить
Частина 2 насправді говорить
Мої запитання є
- У формулі , тобто можу я замінити на і перемістити його поза сумою , адже це дійсно розподіл над заданий для го стохастичного алгоритму навчання? E k (E | F,n)= ∑ x ∉ D P(x)[P k | Г ) П к∑ x ∉ D h H D
- Враховуючи, що алгоритм навчання го кандидата є стохастичним методом, чому у формулі немає суми понад , тобто ?E k ( E | F , n ) h ∑ h ∈
Чим та відрізняються один від одного? E i (E | F,
Чи означає коефіцієнт помилки поза тренуванням, заданий навчальним набором ?
Чи означає коефіцієнт помилки поза тренуванням, середній за весь набір тренувань із заданим розміром тренувань ? Якщо так, то чому частина 1 в теоремі NFL середня за навчальними наборами знову, записавши , і чому у формулі для , немає середнього показника для всіх навчальних наборів з урахуванням розміру тренувань ?n E∑ D E k ( E | F , n )
- У частині 1 теореми про NFL чи означає підсумовування всіх навчальних наборів із фіксованим розміром тренувань ?
- Якщо подальше підсумовування всіх можливих значень у навчального розміру у частині 1, результат все одно дорівнює 0, правда?
- У формулі , якщо я зміню на , тобто не обов'язково має бути поза навчальним набором, обидві частини будуть Теорема про NFL все ще є правдою? ∑ x ∉ D ∑ x
- Якщо справжнє відношення між і не вважається детермінованою функцією як , а натомість умовними розподілами , або спільним розподілом що еквівалентно знаючи і (також дивіться моє інше запитання ), то я можу змінити
на (зі дивним вказано в частині 1 та 2). Чи все ще дві частини теореми про НФЛ вірні?y F y = F ( x ) P ( y | x ) P ( x , y ) P ( y | x ) P ( x ) E k ( E | F , n ) E k ( E | P ( x , y ) , n ) = EP k ( h ( x ) | D )
Дякую та з повагою!