Аргумент, який, здається, пише цей документ, здається мені дивним.
Згідно з цим документом, метою CV є оцінка , очікуваної предсказательной продуктивності моделі на нових даних, враховуючи , що модель була навчена на спостережуваному наборі даних S . Коли ми проводимо K кратної CV, ми отримуємо оцінку А з цього числа. Через випадкове розбиття S в K складки, це випадкова величина , ~ е ( ) із середнім μ до і дисперсії σ 2 до . На відміну від n -разів, повторних CV, дає оцінку з тим же середнімα2SкА^SкА^∼ f( А )мккσ2кн але менша дисперсія σ 2 k / n .мккσ2k/n
Очевидно, . Цей ухил - це те, що ми маємо прийняти.α2≠μk
Однак очікувана помилка буде більше при менших п , і буде найбільшим для п = 1 , по крайней мере , при розумних припущеннях про F ( A ) , наприклад , коли ˙ ~ N ( μ до , σ 2 до / н ) . Іншими словами, повторне CV дозволяє отримати більш точну оцінку μ kE[|α2−A^|2]nn=1f(A)A^∼˙N(μk,σ2k/n)μkі це добре, тому що дає більш точну оцінку .α2
Тому повторне резюме суворо точніше, ніж не повторне резюме.
Автори з цим не сперечаються! Натомість вони стверджують, виходячи з симуляцій, що
зменшення дисперсії [шляхом повторення резюме] у багатьох випадках не дуже корисне, а по суті є марною витратою обчислювальних ресурсів.
Це просто означає, що в їх моделюванні було досить низьким; Дійсно, найменший розмір вибірки, який вони використовували, становив 200 , що, ймовірно, досить великий, щоб отримати малу σ 2 k . (Різниця в оцінках, отриманих при неодноразовому резюме та 30-кратно повторюваному резюме, завжди невелика.) При менших розмірах вибірки можна очікувати більшої дисперсії між повторами.σ2k200σ2k
CAVEAT: Інтервали довіри!
Ще один момент, який зазначають автори, - це те
повідомлення про довірчі інтервали [у повторній перехресній валідації] вводить в оману.
Здається, що вони посилаються на довірчі інтервали для середнього для повторень резюме. Я повністю погоджуюся, що це безглузда річ повідомляти! Чим більше разів повторюється резюме, тим меншим буде цей ІС, але ніхто не цікавиться КІ навколо нашої оцінки ! Ми дбаємо про ІС навколо нашої оцінки α 2 .μkα2
Автори також повідомляють про КІ для неодноразового резюме, і мені не зовсім зрозуміло, як були побудовані ці КІ. Я здогадуюсь, що це КІ для засобів через складки. Я б заперечував, що ці КІ також майже безглузді!k
Погляньте на один із їх прикладів: точність для adult
набору даних за алгоритмом NB та розміром 200 вибірки. Вони отримують 78,0% при неодноразовому CV, ІС (72,26, 83,74), 79,0% (77,21, 80,79) при 10-кратному повторенні КВ, і 79,1% (78,07, 80,13) при 30-кратному повторенні CV. Усі ці КІ марні, в тому числі і перший. Найкраща оцінка становить 79,1%. Це відповідає 158 успіхам з 200. Це дає 95% довірчий інтервал бінома (72,8, 84,5) - ширше, ніж перший, про який повідомлялося. Якби я хотів повідомити про якусь ІП, я би повідомив про це.μk
БІЛЬШЕ ЗАГАЛЬНЕ КАВЕТА: дисперсія резюме.
Ви написали це повторне резюме
стала популярною методикою зменшення дисперсії перехресної перевірки.
Повинно бути дуже зрозуміло, що означає "дисперсія" резюме. Повторне CV зменшує дисперсію оцінки . Зауважимо, що у випадку залишкового одноразового CV (LOOCV), коли k = N , ця дисперсія дорівнює нулю. Тим не менш, часто кажуть, що LOOCV насправді має найбільшу дисперсію з усіх можливих резюме k- кратних. Див., Наприклад, тут: Варіантність та упередженість у перехресній валідації: чому резюме, що випускає один, має більшу дисперсію?μkk=Nk
Чому так? Це тому , що LOOCV має найвищу дисперсію в якості оцінки , який є очікуваною предсказательной характеристик моделі на нових даних , коли побудований на новому наборі даних одного і того ж розміру , як S . Це зовсім інше питання.α1S