Теорема без вільного обіду та послідовність K-NN


10

Під час обчислювального навчання теорема NFL стверджує, що не існує універсального учня. Для кожного алгоритму навчання існує розподіл, який обумовлює виведення учням гіпотезу з великою помилкою, з високою ймовірністю (хоча гіпотез помилок низький). Висновок полягає в тому, що для того, щоб навчитися, клас гіпотезу або розподіли повинні бути обмежені. У своїй книзі "Імовірнісна теорія розпізнавання образів" Devroye та ін доказують наступну теорію для K-найближчих сусідів, які навчаються: Де

Assume μ has a density. if k and k/n0 then for every ϵ>0, there's N, s.t. for all n>N:P(RnR>ϵ)<2exp(Cdnϵ2)
R- помилка оптимального правила Байеса, - справжня помилка виходу K-NN (ймовірність перевищує навчальний набір розміром ), - міра ймовірності на просторі екземпляра і - деяка константа, залежить лише від евклідового виміру. Таким чином, ми можемо наблизитись до кращої гіпотези, що існує (не найкраща в якомусь обмеженому класі), не роблячи припущення щодо розподілу. Тож я намагаюся зрозуміти, як цей результат не суперечить теоремі NFL? Дякую!RnnμRdCd

Відповіді:


6

Те, як я розумію теорему NFL, полягає в тому, що в кожному завданні не існує алгоритму навчання, який був би кращим, ніж решта. Однак це не є теоремою в чіткому математичному сенсі, що вона має доказ, а не емпіричне спостереження.

Аналогічно тому, що ви сказали для kNN, існує також теорема універсального наближення для нейронних мереж, в якій зазначено, що за допомогою двошарової нейронної мережі ми можемо наблизити будь-яку функцію з будь-якою довільною помилкою.

Тепер, як це не порушити NFL? В основному йдеться про те, що ви можете вирішити будь-яку мислиму проблему за допомогою простого двошарового NN. Причина полягає в тому, що поки теоретично НН можуть наближати що завгодно, на практиці їх дуже важко навчити наближати що-небудь. Ось чому для деяких завдань переважніші інші алгоритми.

Більш практичним способом інтерпретації NFL є наступний:

Не можна апріорі визначити, який алгоритм найкраще виконає для даної задачі.


3
Дякую за відповідь, але є деякі неточності. По-перше, теорема NFL має доказ (наприклад, shalev-shwartz & ben-david, розуміння машинного навчання, глава 5). Для теореми загального наближення - ця теорема стосується експресивності, тоді як теорема NFL стосується узагальнення.
michael J
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.