Чи не існує в статистиці теорії навчання проблема надмірного розміщення на тестовому наборі?


16

Розглянемо проблему класифікації набору даних MNIST.

Згідно з веб-сторінкою MNIST Янна Лекуна , "Ciresan та ін." отримали 0,23% помилок на тестовому наборі MNIST за допомогою Convolutional Neural Network.

Позначимо навчальний набір MNIST як , тестовий набір MNIST як D t e s t , остаточну гіпотезу, яку вони отримали, використовуючи D t r a i n як h 1 , та їх коефіцієнт помилок на тесті MNIST з використанням h 1 як E t e s t ( h 1 ) = 0,0023 .DtrainDtestDtrainh1h1Etest(h1)=0.0023

З їх точки зору, оскільки є вибірковою вибіркою тестового набору з вхідного простору незалежно від h 1 , вони можуть наполягати на тому, що виконання помилок у вибірці їх остаточної гіпотези E o u t ( h 1 ) обмежене наступним чином з нерівності Гоффдінга Р [ | E o u t ( h 1 ) - E t e s t ( h 1 ) | < ϵ | ]Dtesth1Eout(h1) де N t e s t = | Д т е с т | .

P[|Eout(h1)Etest(h1)|<ϵ|]12e2ϵ2Ntest

Ntest=|Dtest|

Іншими словами, принаймні ймовірність , E o u t ( h 1 ) E t e s t ( h 1 ) + 1δ

Eout(h1)Etest(h1)+12Ntestln2δ

Розглянемо іншу точку зору. Припустимо, якась людина хоче добре класифікувати тестовий набір MNIST. Тож він вперше переглянув веб-сторінку MNIST Yann LeCun і виявив наступні результати, отримані іншими людьми за допомогою 8 різних моделей,

MNIST classification results

і вибрав свою модель яка найкраще описувалась на тестовому наборі MNIST серед 8 моделей.g

gDtestHtrained={h1,h2,..,h8}

Etest(g)

P[|Eout(g)Ein(g)|<ϵ]12|Htrained|e2ϵ2Ntest

1δ

Eout(g)Etest(g)+12Ntestln2|Htrained|δ

Цей результат означає, що на тестовому наборі може бути надмірний примір, якщо ми виберемо модель, яка найкраще працює серед кількох моделей.

h1Etest(h1)=0.0023h1Dtesth1

Eout(h1)Etest(h1)+12Ntestln2|Htrained|δ

P[Eout(h1)Etest(h1)+12Ntestln2δ]1δ
P[Eout(h1)Etest(h1)+12Ntestln2|Htrained|δ]1δ

Говервер, очевидно, що ці дві нерівності несумісні.

Де я роблю неправильно? Який з них правильний, а хто - неправильний?

Якщо остання помилкова, то який правильний спосіб застосувати обмежену ВК для кінцевих наборів гіпотез у цьому випадку?

Відповіді:


1

Серед цих двох нерівностей, я думаю, що пізніші помиляються. Коротше кажучи, що тут не так - це особистістьг=год1 враховуючи це г є функцією тестових даних під час год1 це модель, яка не залежить від даних тесту.

Фактично, г є однією з 8 моделей в Росії Нтrаiнег={год1,год2,...,год8} що найкраще прогнозує тестовий набір Dтест.

Тому г є функцією Dтест. Для конкретного тестового набору,Dтест (на зразок тієї, яку ви згадали), це може статися так г(Dтест)=год1, але загалом, залежно від тестового набору, г(Dтест) може прийняти будь-яке значення в Нтrаiнег. З іншої сторонигод1 - це лише одне значення в Нтrаiнег.

Для іншого питання:

Якщо остання помилкова, то який правильний спосіб застосувати обмежену ВК для кінцевих наборів гіпотез у цьому випадку?

Просто не замінюйте г від год1, ви отримаєте правильну межу (для гзвичайно) і це не матиме конфлікту з іншими пов'язаними (що для год1).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.