Розглянемо проблему класифікації набору даних MNIST.
Згідно з веб-сторінкою MNIST Янна Лекуна , "Ciresan та ін." отримали 0,23% помилок на тестовому наборі MNIST за допомогою Convolutional Neural Network.
Позначимо навчальний набір MNIST як , тестовий набір MNIST як D t e s t , остаточну гіпотезу, яку вони отримали, використовуючи D t r a i n як h 1 , та їх коефіцієнт помилок на тесті MNIST з використанням h 1 як E t e s t ( h 1 ) = 0,0023 .
З їх точки зору, оскільки є вибірковою вибіркою тестового набору з вхідного простору незалежно від h 1 , вони можуть наполягати на тому, що виконання помилок у вибірці їх остаточної гіпотези E o u t ( h 1 ) обмежене наступним чином з нерівності Гоффдінга Р [ | E o u t ( h 1 ) - E t e s t ( h 1 ) | < ϵ | ] де N t e s t = | Д т е с т | .
Іншими словами, принаймні ймовірність , E o u t ( h 1 ) ≤ E t e s t ( h 1 ) + √
Розглянемо іншу точку зору. Припустимо, якась людина хоче добре класифікувати тестовий набір MNIST. Тож він вперше переглянув веб-сторінку MNIST Yann LeCun і виявив наступні результати, отримані іншими людьми за допомогою 8 різних моделей,
і вибрав свою модель яка найкраще описувалась на тестовому наборі MNIST серед 8 моделей.
Цей результат означає, що на тестовому наборі може бути надмірний примір, якщо ми виберемо модель, яка найкраще працює серед кількох моделей.
Говервер, очевидно, що ці дві нерівності несумісні.
Де я роблю неправильно? Який з них правильний, а хто - неправильний?
Якщо остання помилкова, то який правильний спосіб застосувати обмежену ВК для кінцевих наборів гіпотез у цьому випадку?