Я використовував неодноразову перехресну перевірку k-кратного перегляду та повідомляв про середнє значення (метрики оцінювання, наприклад, чутливість, специфічність), обчислене як велике середнє значення для складок різних пробігів перехресної перевірки.
Однак я не впевнений, як я повинен повідомити про відхилення. Тут я знайшов багато питань, що обговорювали повторну перехресну перевірку, однак жодне, про що мені відомо, явно не відповідає на питання про розбіжність у повторних перехресних тестах.
Я розумію, що загальна дисперсія обумовлена: 1) нестабільністю моделі та 2) обмеженим розміром вибірки.
Схоже, існують 4 різні підходи до обчислення дисперсії для повторної перехресної перевірки k-кратного:
1) дисперсія оціночної метрики середньої продуктивності (наприклад, точності) по ходах перехресної валідації є коректною оцінкою дисперсії?
2) об'єднана дисперсія шляхом об'єднання варіацій, характерних для прогону (які обчислюються в різних складках пробігу перехресної перевірки).
3) об'єднати результати класифікації за різним складанням перехресної перевірки у великому векторі. Наприклад, якщо кількість тестових даних у кожній складці дорівнює 10, а у мене є 10-кратне резюме, отриманий вектор для повторення буде розміром 100. Тепер, якщо я повторюю тест перехресної перевірки 10 разів, я мають 10 векторів розміром 100, кожен з яких містить результати класифікації 10-кратного циклу CV. Тепер я б обчислив середнє значення та дисперсію, як у випадку з одноразовим CV.
4) Я також читав (рівняння 2 та 3 в 1 ), що дисперсія - це сума зовнішньої дисперсії та очікувана внутрішня дисперсія. Якщо я правильно розумію, зовнішня дисперсія - це дисперсія середніх характеристик повторення, а внутрішня дисперсія - дисперсія в різних складках пробігу перехресної перевірки.
Я дуже вдячний за вашу допомогу та вказівки щодо того, яка дисперсія була б найбільш підходящою для повідомлення про повторну перевірку перехресної перевірки.
Спасибі,