Мене турбує, що точність прогнозування, обчислена між кожною складовою, залежить від значного перекриття між тренувальними наборами (хоча набори прогнозування не залежать).
ІМХО перекриття між навчальними наборами не повинно викликати великого занепокоєння. Тобто, звичайно, важливо перевірити, чи стабільні моделі. Стабільне означає, що прогнози сурогатних моделей крос-валідації є рівнозначними (тобто незалежний випадок отримав би однаковий прогноз для всіх цих моделей), а насправді перехресний валідатон зазвичай вимагає еквівалентності не тільки між сурогатними моделями, але і моделлю, навченою для всіх справ. Тож ця залежність є скоріше наслідком того, що ми хочемо мати.
Це стосується типового питання: якщо я треную модель на цих даних, які інтервали прогнозування? Якщо натомість питання, якщо ми тренуємо модель з випадків цієї сукупності, які інтервали прогнозування?, Ми не можемо відповісти на це, оскільки це накладання у навчальних наборах означає, що ми недооцінюємо відхилення на невідому кількість.n
Які наслідки порівняно з тестуванням з незалежним тестовим набором?
- Оцінки перехресної валідації можуть мати більшу дисперсію, ніж тестування кінцевої моделі з незалежним тестовим набором однакового розміру, оскільки крім дисперсії внаслідок тестових випадків ми стикаємось з дисперсією через нестабільність сурогатних моделей.
Однак якщо моделі стабільні, ця дисперсія невелика / незначна. Крім того, цей тип стійкості можна виміряти.
Що може НЕ бути виміряна , наскільки репрезентативна весь набір даних по порівнянні з населенням вона була намальована з. Це включає частину зміщення кінцевої моделі (однак, також невеликий незалежний тестовий набір може мати зміщення), і це означає, що відповідна дисперсія не може бути оцінена шляхом перехресної перевірки.
У практиці застосування (виконання моделі, підготовленої за цими даними), розрахунок інтервалу прогнозування зіткнеться з проблемами того, що IMHO важливіше, ніж те, що частина перехресної перевірки дисперсії не може виявити:
- перехресне підтвердження не може перевірити ефективність для незалежних за часом випадків (прогнози зазвичай потрібні для випадків, які вимірюються в майбутньому)
- дані можуть містити невідомі кластери, а продуктивність поза кластером може бути важливою. Кластеризовані дані - це принцип, що можна враховувати при перехресній валідації, але вам потрібно знати про кластеризацію.
Це більше, ніж просто перехресне підтвердження порівняно з незалежним тестовим набором: в основному вам потрібно буде сісти і спроектувати перевірку перевірки, інакше існує високий ризик того, що "незалежний" тестовий набір не все такий незалежний. Коли це буде зроблено, можна подумати, які фактори можуть мати практичне значення, а якими можна знехтувати. Ви можете дійти висновку, що після ретельного розгляду перехресне підтвердження є достатньо хорошим і розумним, що робити, оскільки незалежна перевірка була б надто дорогою порівняно з можливим збільшенням інформації.
Я б використав звичайну формулу для стандартного відхилення, називав її за аналогією до і детально повідомив про те, як проводилось тестування.sCVRMSECV