Чи слід використовувати повторну перехресну перевірку для оцінки прогнозних моделей?


16

Я зіткнувся з цією статтею Гітти Ванвінккелен та Хендріка Блокеля в 2012 році, ставлячи під сумнів корисність повторної перехресної перевірки, яка стала популярною методикою зменшення дисперсії перехресної перевірки.

Автори продемонстрували, що при повторній перехресній валідації зменшується дисперсія прогнозування моделі, оскільки один і той же набір даних вибірки перепробовується, середнє значення перекомплектованих оцінок крос-валідації перетворюється на упереджену оцінку справжньої точності прогнозування і, отже, не є корисною.

Чи слід застосовувати повторну перехресну перевірку, незважаючи на ці обмеження?


6
На мій досвід, перехресне підтвердження (повторне чи ні) не дає дуже гарної оцінки точності прогнозування. Але це дуже корисно для порівняння прогностичної ефективності різних моделей. Це хороший спосіб вибору між моделями, але не гарний спосіб оцінки продуктивності однієї моделі.
Флонджер

@Flounderer Це хороший момент. Моя інтерпретація статті полягає в тому, що ми не можемо зробити значущих порівнянь моделей, заснованих на повторній перехресній валідації та не повторній перехресній валідації. Ви намагаєтесь видавити з даних нерозумний обсяг інформації. Або це неправильно?
RobertF

Відповіді:


11

Аргумент, який, здається, пише цей документ, здається мені дивним.

Згідно з цим документом, метою CV є оцінка , очікуваної предсказательной продуктивності моделі на нових даних, враховуючи , що модель була навчена на спостережуваному наборі даних S . Коли ми проводимо K кратної CV, ми отримуємо оцінку А з цього числа. Через випадкове розбиття S в K складки, це випадкова величина , ~ е ( ) із середнім μ до і дисперсії σ 2 до . На відміну від n -разів, повторних CV, дає оцінку з тим же середнімα2SkA^SkA^f(A)μkσk2n але менша дисперсія σ 2 k / n .μkσk2/n

Очевидно, . Цей ухил - це те, що ми маємо прийняти.α2μk

Однак очікувана помилка буде більше при менших п , і буде найбільшим для п = 1 , по крайней мере , при розумних припущеннях про F ( A ) , наприклад , коли ˙ ~ N ( μ до , σ 2 до / н ) . Іншими словами, повторне CV дозволяє отримати більш точну оцінку μ kE[|α2A^|2]nn=1f(A)A^˙N(μk,σk2/n)μkі це добре, тому що дає більш точну оцінку .α2

Тому повторне резюме суворо точніше, ніж не повторне резюме.

Автори з цим не сперечаються! Натомість вони стверджують, виходячи з симуляцій, що

зменшення дисперсії [шляхом повторення резюме] у багатьох випадках не дуже корисне, а по суті є марною витратою обчислювальних ресурсів.

Це просто означає, що в їх моделюванні було досить низьким; Дійсно, найменший розмір вибірки, який вони використовували, становив 200 , що, ймовірно, досить великий, щоб отримати малу σ 2 k . (Різниця в оцінках, отриманих при неодноразовому резюме та 30-кратно повторюваному резюме, завжди невелика.) При менших розмірах вибірки можна очікувати більшої дисперсії між повторами.σk2200σk2

CAVEAT: Інтервали довіри!

Ще один момент, який зазначають автори, - це те

повідомлення про довірчі інтервали [у повторній перехресній валідації] вводить в оману.

Здається, що вони посилаються на довірчі інтервали для середнього для повторень резюме. Я повністю погоджуюся, що це безглузда річ повідомляти! Чим більше разів повторюється резюме, тим меншим буде цей ІС, але ніхто не цікавиться КІ навколо нашої оцінки ! Ми дбаємо про ІС навколо нашої оцінки α 2 .μkα2

Автори також повідомляють про КІ для неодноразового резюме, і мені не зовсім зрозуміло, як були побудовані ці КІ. Я здогадуюсь, що це КІ для засобів через складки. Я б заперечував, що ці КІ також майже безглузді!k

Погляньте на один із їх прикладів: точність для adultнабору даних за алгоритмом NB та розміром 200 вибірки. Вони отримують 78,0% при неодноразовому CV, ІС (72,26, 83,74), 79,0% (77,21, 80,79) при 10-кратному повторенні КВ, і 79,1% (78,07, 80,13) при 30-кратному повторенні CV. Усі ці КІ марні, в тому числі і перший. Найкраща оцінка становить 79,1%. Це відповідає 158 успіхам з 200. Це дає 95% довірчий інтервал бінома (72,8, 84,5) - ширше, ніж перший, про який повідомлялося. Якби я хотів повідомити про якусь ІП, я би повідомив про це.μk

БІЛЬШЕ ЗАГАЛЬНЕ КАВЕТА: дисперсія резюме.

Ви написали це повторне резюме

стала популярною методикою зменшення дисперсії перехресної перевірки.

Повинно бути дуже зрозуміло, що означає "дисперсія" резюме. Повторне CV зменшує дисперсію оцінки . Зауважимо, що у випадку залишкового одноразового CV (LOOCV), коли k = N , ця дисперсія дорівнює нулю. Тим не менш, часто кажуть, що LOOCV насправді має найбільшу дисперсію з усіх можливих резюме k- кратних. Див., Наприклад, тут: Варіантність та упередженість у перехресній валідації: чому резюме, що випускає один, має більшу дисперсію?μkk=Nk

Чому так? Це тому , що LOOCV має найвищу дисперсію в якості оцінки , який є очікуваною предсказательной характеристик моделі на нових даних , коли побудований на новому наборі даних одного і того ж розміру , як S . Це зовсім інше питання.α1S


1
Я сподіваюся, що @cbeleites помітить цю тему і прокоментує тут або залишить власну відповідь: я знаю, що вона (або використовувала) багато разів використовує резюме, і я думаю, що виступає за обчислення варіабельності за повторами, як деякий показник стабільності моделі. Але я не думаю, що вона обчислить ІП за повторами.
Амеба каже, що поверніть Моніку

1
Дякуємо за чітке пояснення статті. Отже, підсумовуючи свою позицію, коли ви заявляєте "Іншими словами, повторне резюме дозволяє отримати більш точну оцінку і це добре, тому що дає більш точну оцінку α 2 ", ви підтримуєте використання повторного резюме як засіб порівняння моделей з більш точними мірами μ k (навіть якщо не більш точна міра α 2 ). Ігноруйте КІ CV та замість цього зосередьтеся на порівнянні середніх μ k s для різних моделей. μкα2мккα2мкк
RobertF

1
@RobertF: Я говорив (дотримуючись статті V&B) про оцінку продуктивності моделі. Моя теза полягає в тому, що повторне резюме є більш точним, ніж неодноразове резюме, і я вважаю, що це сумнівно (хоча V&R стверджує, що різниця в точності, як правило, не є настільки важливою на практиці). Порівнювати дві моделі набагато складніше, тому що скажімо, що ви запускаєте CV та отримуєте 70% для однієї моделі та 71% для іншої моделі. Це "суттєва" різниця? Ну, це хитра проблема без однозначної відповіді. І це незалежно від повторного / не повторного питання.
Амеба каже, що поверніть Моніку


1
Хороша робота. Нагороджений баунті Я думаю, я б підсумував мораль історії так: повторна перехресна перевірка може бути корисною лише тоді, коли невелика, що швидше для порівняно невеликих зразків. Питання про те, наскільки добре крос-валідація оцінює помилку тесту з використанням даного навчального набору даних, порівняно з очікуваною помилкою тесту, використовуючи випадковий набір даних тренінгу однакового розміру, розглядається в розділі 7.12 книги Хасті, Тібшірані та Фрідмана (2009). Хасті та ін. зробіть висновок, що краще в останньому. σk
Кодіолог
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.