Дозвольте додати кілька моментів до приємних відповідей, які вже є тут:
Вкладений K-кратний та повторний K-кратний: вкладений та повторний k-кратний склад - це абсолютно різні речі, які використовуються для різних цілей.
- Як ви вже знаєте , вкладене добре, якщо ви хочете використовувати внутрішній ревізор для вибору моделі.
- повторюється: IMHO ви завжди повинні повторювати k-кратний cv [див. нижче].
Тому я рекомендую повторити будь-яку вкладену перехресну перевірку k-кратного перекладу .
Кращий звіт "Статистика нашого оцінювача, наприклад, його інтервал довіри, дисперсія, середнє значення тощо на повній вибірці (в даному випадку вибірку резюме)". :
Звичайно. Однак вам потрібно усвідомлювати той факт, що ви не зможете (легко) оцінити інтервал довіри лише за результатами перехресної перевірки. Причина полягає в тому, що скільки б ви не повторно працювали, фактична кількість випадків, на які ви дивитесь, є кінцевою (і зазвичай досить невеликою - інакше ви б не переймалися цими відмінностями).
Див., Наприклад, Bengio, Y. та Grandvalet, Y .: Непідвладний оцінювач варіантів K-Fold Cross-Validation Journal of Machine Learning Research, 2004, 5, 1089-1105 .
Однак у деяких ситуаціях ви все-таки можете оцінити відхилення: за допомогою повторної перехресної перевірки k-кратного ви зможете зрозуміти, чи нестабільність моделі відіграє роль. І ця дисперсія, пов'язана з нестабільністю, насправді є тією частиною дисперсії, яку ви можете зменшити за допомогою повторної перехресної перевірки. (Якщо ваші моделі є абсолютно стабільними, кожне повторення / ітерація перехресної перевірки матиме однакові прогнози для кожного випадку. Однак у вас все ще є розбіжність через фактичний вибір / склад вашого набору даних). Таким чином, існує обмеження нижчої дисперсії повторної перехресної валідації k-кратного. Робити більше та більше повторень / ітерацій не має сенсу, оскільки відхилення, спричинене тим, що в підсумку було протестовано лише справжніх випадків, не впливає. н
Відхилення, спричинене тим, що в кінцевому підсумку було випробувано лише реальних випадків, можна оцінити для деяких спеціальних випадків, наприклад, продуктивність класифікаторів, виміряну пропорціями, такими як частота враження, частота помилок, чутливість, специфічність, прогнозні значення тощо : вони слідують за біноміальними розподілами На жаль, це означає, що вони мають величезну дисперсію з справжнє значення продуктивності моделі, спостережуваний і розмір вибірки в знаменнику дробу. Це максимум дляσ 2 ( р ) = 1нр р пр=0,5σ2( с^) = 1нp ( 1 - p )pp^нр = 0,5. Ви також можете обчислити довірчі інтервали, починаючи з спостереження. (@Frank Harrell коментує, що це не належні правила зарахування балів, тому ви все одно не повинні їх використовувати - що пов'язано з величезною дисперсією). Однак ІМХО вони корисні для виведення консервативних меж (є кращі правила скорингу, а погана поведінка цих фракцій є найгіршим обмеженням для кращих правил),
див., Наприклад, C. Beleites, R. Salzer та V. Sergo: Валідація моделей м'якої класифікації за допомогою часткових членів класу: розширена концепція чутливості та Co., застосована до оцінювання тканин астроцитоми, Chemom. Intell. Лабораторія. Сист., 122 (2013), 12 - 22.
Отже, це дозволяє мені обернутися вашою аргументацією щодо затримки :
- Ні один перекомпонування (не обов'язково) дає хорошу оцінку дисперсії,
- OTOH, якщо ви можете розмірковувати про відмінність розміру кінцевого тесту-вибірки для оцінки перехресної валідації, це також можливо, щоб протриматися.
Наш оцінювач цього єдиного вимірювання був би навчений на наборі (наприклад, набір CV), який менший, ніж наш початковий зразок, оскільки ми повинні звільнити місце для набору витримки. Це призводить до більш упередженої (песимістичної) оцінки P1.
Не обов'язково (якщо порівнювати з k-кратним) - але вам доведеться торгувати: невеликий набір витримки (наприклад, зразка => низький ухил (≈ те саме, що k-кратно cv), велика дисперсія (> k-кратне cv, приблизно на коефіцієнт k).1к
Мені здається, що звітування про тестовий набір випробувань є поганою практикою, оскільки аналіз зразка резюме є більш інформативним.
Зазвичай так. Однак також слід пам’ятати, що існують важливі типи помилок (наприклад, дрейф), які неможливо виміряти / виявити шляхом перевірки переустановки.
Див., Наприклад, Esbensen, KH та Geladi, P. Принципи правильної перевірки: використання та зловживання повторним відбором проб для перевірки, Journal of Chemometrics, 2010, 24, 168-187
але мені здається, що для такої ж кількості підготовлених загальних моделей (загальна кількість складок) повторний K-кратний результат дасть оцінки, які є менш упередженими та точнішими, ніж вкладені K-кратні. Щоб побачити це:
При повторному K-кратному використанні більша частка нашого загального зразка, ніж вкладена K-кратка для того ж K (тобто це призводить до нижчого зміщення)
Я б сказав це ні: це не має значення, як модельне навчання використовує свої зразки тренувань, доки сурогатні моделі та "реальна" модель використовують їх у одній і тій же шлях. (Я дивлюся на внутрішню перехресну валідацію / оцінку гіперпараметрів як частину налаштування моделі).
Речі виглядають по-іншому, якщо порівнювати сурогатні моделі, які навчаються, включаючи гіперпараметричну оптимізацію, з моделлю "", яка навчається за фіксованими гіпер-параметрами. Але ІМХО узагальнює від яблук до 1 апельсина.kk - 1кн
к
100 ітерацій дають лише 10 вимірювань нашого оцінювача у вкладеній K-краті (K = 10), але 100 вимірювань у K-кратному рівні (більше вимірювань призводить до меншої дисперсії в P2)
Чи має це значення, залежить від нестабільності (сурогатних) моделей, дивіться вище. Для стабільних моделей це не має значення. Так може бути, чи робити ви 1000 чи 100 зовнішніх повторів / ітерацій.
І цей документ остаточно належить до списку читання на цю тему:
Cawley, GC та Talbot, NLC Про перевиконання у виборі моделі та наступних ухилах відбору в оцінці продуктивності, Journal of Machine Learning Research, 2010, 11, 2079-2107