Під час обчислювального навчання теорема NFL стверджує, що не існує універсального учня. Для кожного алгоритму навчання існує розподіл, який обумовлює виведення учням гіпотезу з великою помилкою, з високою ймовірністю (хоча гіпотез помилок низький). Висновок полягає в тому, що для того, щоб навчитися, клас гіпотезу або розподіли повинні бути обмежені. У своїй книзі "Імовірнісна теорія розпізнавання образів" Devroye та ін доказують наступну теорію для K-найближчих сусідів, які навчаються:
Де
Assume μ has a density. if k→∞ and k/n→0 then for every ϵ>0, there's N, s.t. for all n>N:P(Rn−R∗>ϵ)<2exp(−Cdnϵ2)
R∗- помилка оптимального правила Байеса, - справжня помилка виходу K-NN (ймовірність перевищує навчальний набір розміром ), - міра ймовірності на просторі екземпляра і - деяка константа, залежить лише від евклідового виміру. Таким чином, ми можемо наблизитись до кращої гіпотези, що існує (не найкраща в якомусь обмеженому класі), не роблячи припущення щодо розподілу. Тож я намагаюся зрозуміти, як цей результат не суперечить теоремі NFL? Дякую!
RnnμRdCd