Спочатку дозвольте мені зрозуміти терміни, які використовуються в питанні, наскільки я розумію. Зазвичай ми починаємо з одного навчального набору даних, використовуємо перехресну перевірку k-кратного для тестування різних моделей (або наборів гіперпараметрів) та вибираємо найкращу модель з найнижчою помилкою CV. Таким чином, "оцінка перехресної перевірки помилки тесту" означає використання найнижчої помилки CV як помилки тесту, а не просто помилку резюме випадкової моделі (що стосується випадку, що обговорюється cbeleites, але це не те, що ми зазвичай робимо.). Про "фактичну помилку тесту" йдеться про помилку, яку ми отримуємо при застосуванні найкращої моделі CV до нескінченного набору тестів, припускаючи, що ми можемо її отримати. Помилка резюме залежить від конкретного набору даних, а фактична помилка тесту залежить від обраної найкращої моделі резюме, яка також залежить від навчального набору даних. Тож різниця між помилкою CV та помилкою тесту залежить від різних наборів даних тренувань. Тоді виникає питання, якщо ми повторюємо вище процес багато разів з різними наборами даних тренувань і середньо оцінюємо дві помилки відповідно, чому середня помилка CV нижче середньої помилки тесту, тобто помилка CV зміщується вниз? Але до цього завжди це відбувається?
Зазвичай неможливо отримати багато наборів даних та тестовий набір даних, що містять нескінченні рядки. Але це можна зробити, використовуючи дані, згенеровані симуляцією. У "главі 7 оцінювання та вибір моделі" книги "Елементи статистичного навчання" Тревор Хасті та ін. , він включає такий імітаційний експеримент.
Висновок полягає в тому, що, використовуючи резюме або завантажувальний тренінг, "... оцінка помилки тесту для конкретного навчального набору в цілому непроста, враховуючи лише дані цього ж навчального набору". Під поняттям "непросто" вони означають, що помилка CV може бути або недооціненою, або переоцінити справжню помилку тесту залежно від різних наборів даних тренінгу, тобто різниця, спричинена різними наборами навчальних даних, досить велика. Як щодо упередженості? КНН та лінійна модель, яку вони тестували, майже не є упередженою: помилка CV переоцінює справжню помилку тесту на 0-4%, проте деякі моделі "як дерева, перехресне підтвердження та ремінь завантаження можуть занижувати справжню помилку на 10%, оскільки на пошук найкращого дерева сильно впливає набір перевірки ".
Підводячи підсумок, для конкретного навчального набору даних помилка CV може бути вищою або нижчою, ніж справжня помилка тесту. Для зміщення середня помилка CV може варіюватися від трохи вище до набагато нижчої, ніж середня істинна помилка тесту залежно від методів моделювання.
Як зазначалося вище, причина недооцінки полягає в тому, що вибір гіперпараметрів для найкращої моделі в кінцевому рахунку залежить від конкретного навчального набору даних. Трохи детальніше. Нехай найкращі гіперпараметри будуть М1 у цьому конкретному навчальному наборі даних. Але M1 може бути не найкращим гіперпараметром для інших навчальних наборів даних, а це означає, що мінімальна помилка CV менше, ніж помилка CV від M1. Таким чином, очікувані помилки резюме, які ми отримуємо від навчального процесу, швидше за все, менше, ніж очікувана помилка резюме M1. Єдиний час, коли мінімальна помилка резюме від певного навчального набору даних не є упередженою - це коли найкраща модель завжди найкраща, незалежна від наборів даних про навчання. З іншого боку, помилка CV також може трохи переоцінити справжню помилку тесту, про яку говорили cbeleites. Це пояснюється тим, що помилка k-кратного резюме отримується за допомогою використання трохи менших навчальних даних для тренування моделі (для 10-кратного cv, використовуючи дані на 90%), вона упереджена вгору проти справжньої помилки, але не сильно. Таким чином, є два упередження, що йдуть в різних напрямках. Для методу моделювання має тенденцію перевищувати, використовуючи менший склад CV, наприклад, у 5 разів проти 10 разів, це може призвести до меншої упередженості.
Якщо говорити, на практиці це не дуже допомагає: ми зазвичай отримуємо лише один "певний" набір даних. якщо ми виставимо 15% до 30% в якості даних тесту і в якості даних тренінгу виберемо кращу модель за резюме, ймовірність того, що помилка CV буде відрізнятися від помилки тесту, оскільки обидва відрізняються від очікуваної помилки тесту. Ми можемо бути підозрілими, якщо помилка CV значно нижча за помилку тесту, але ми не будемо знати, яка з них ближче до справжньої помилки тесту. Найкращою практикою може бути лише представлення обох показників.