Дуже цікаве запитання, мені доведеться прочитати статті, які ви даєте ... Але, можливо, це почне нас у відповідь:
Зазвичай я вирішую цю проблему дуже прагматичним способом: я повторюю перевірку перехресного перетворення k-кратних разів з новими випадковими розколами та обчислюю продуктивність так само, як зазвичай для кожної ітерації. Тоді загальні випробувальні зразки є однаковими для кожної ітерації, і відмінності виникають через різні розбиття даних.
Це я повідомляю, наприклад, як 5-й до 95-го перцентилів спостережуваних результатів. обмін до зразком для нових зразків та обговорення його як міри для нестабільності моделі.нк- 1
Бічна примітка: я все одно не можу використовувати формули, які потребують розміру вибірки. Оскільки мої дані мають структурну групу або ієрархічну структуру (багато подібних, але неодноразових вимірювань одного і того ж випадку, як правило, декілька [сотень] різних місць одного зразка), я не знаю ефективного розміру вибірки.
порівняння з завантажувальним завантаженням:
ітерації використовують нові випадкові розщеплення.
головна відмінність - це перекомпонування з (bootstrap) або без (cv) заміни.
обчислювальна вартість приблизно однакова, тому що я б не вибрав ні ітерацій cv ітерацій завантажувальної програми / k, тобто обчислював однакову загальну кількість моделей.≈
bootstrap має переваги перед cv в частині деяких статистичних властивостей (асимптотично правильно, можливо, вам потрібно менше ітерацій, щоб отримати хорошу оцінку)
однак із резюме у вас є перевага, що вам це гарантовано
- кількість відмінних навчальних зразків однакова для всіх моделей (важливо, якщо ви хочете розрахувати криві навчання)
- кожен зразок тестується рівно один раз на кожній ітерації
деякі методи класифікації відкидають повторні зразки, тому завантажувальний процес не має сенсу
Варіантність виконання
коротка відповідь: так, має сенс говорити про розбіжність у ситуації, коли існує лише {0,1} результат.
Подивіться на біноміальний розподіл (k = успіхи, n = тести, p = справжня ймовірність успіху = середня k / n):
σ2( k ) = n p ( 1 - p )
Різниця пропорцій (таких як частота звернення, швидкість помилок, чутливість, TPR, ..., я буду використовувати відтепер і для спостережуваного значення в тесті) - це тема, яка заповнює цілі книги .. .рpp^
- Флісс: Статистичні методи для ставок та пропорцій
- Фортофер і Лі: Біостатистика має приємне вступ.
Тепер, р = до і тому:p^= kн
σ2( с^) = p ( 1 - p )н
Це означає, що невизначеність для вимірювання продуктивності класифікатора залежить лише від справжньої продуктивності p тестованої моделі та кількості тестових зразків.
Ви маєте на увазі перехресну перевірку
що k "сурогатні" моделі мають таку саму справжню продуктивність, що і "справжня" модель, яку ви зазвичай будуєте з усіх зразків. (Розбиття цього припущення є відомим песимістичним ухилом).
що k "сурогатні" моделі мають однакову справжню ефективність (рівнозначні, мають стабільні прогнози), тому вам дозволяється об'єднати результати k тестів.
Звичайно, тоді можуть бути об'єднані не тільки k "сурогатні" моделі однієї ітерації cv, але і k i моделі ітерацій k-кратного cv.
Навіщо повторювати?
Головне, що вам ітерації говорять, - це нестабільність моделі (прогнозування), тобто дисперсія прогнозів різних моделей для однієї вибірки.
p^
І так, це важлива інформація.
нb o o t s t r a pk ⋅ nя т е р . c v n - 1 ≈ nσ2( с^) = p ( 1 - p )н
pкнp^н
Якщо ви спостерігаєте нестабільність моделі, середнє значення в сукупності є кращою оцінкою справжньої продуктивності. Різниця між ітераціями є важливою інформацією, і ви можете порівняти її з очікуваною мінімальною дисперсією для тестового набору розміром n із справжньою середньою продуктивністю за всі ітерації.