Зміщення та відхилення в перехресній валідації "відхід-один-проти" до кратного перекладу


83

Як різні методи перехресної валідації порівнюють з точки зору дисперсії моделі та зміщення?

Моє запитання частково мотивоване цією темою: Оптимальна кількість складок у кратній перехресній валідації: чи завжди рейтинг резюме найкращий вибір? KК. Відповідь наводить на думку, що моделі, засвоєні з перехресною валідацією «відхід один-один», мають більшу дисперсію, ніж ті, що вивчаються при регулярній перехресній валідації кратної, що робить резюме «вихід-один-вихід» гіршим вибором.K

Однак, моя інтуїція підказує мені , що у відпустці-один з CV один повинен побачити щодо нижчу дисперсію між моделями , ніж в - кратну CV, так як ми тільки зрушуючи одну точку даних по складкам і , отже, навчальні набори між складками перекриваються по суті.K

Або в іншому напрямку, якщо низький показник кратного резюме, навчальні набори будуть сильно відрізнятися за складками, і отримані моделі швидше відрізняються (отже, більша дисперсія).КKK

Якщо вищенаведений аргумент є правильним, чому б моделі, вивчені за допомогою резюме з відпусткою, мали більшу дисперсію?


2
Привіт Амеліо. Зверніть увагу , що розрахунки , представлені в новому відповіді на Ксав'є і в цьому старшому Q Джейк в Західному краї stats.stackexchange.com/questions/280665 , як показують , що дисперсія зменшується з . Це прямо суперечить прийнятій на даний момент відповідь, а також найбільш схваленій відповіді (що раніше було прийнято). Я ніде не бачив симуляції, який би підтримував твердження, що дисперсія збільшується з і є найвищою для LOOCV. КKK
амеба

2
Дякую @amoeba Я спостерігаю за досягненнями обох відповідей. Я обов'язково зроблю все можливе, щоб переконатися, що прийняті відповіді вказують на найбільш корисні та правильні.
Амеліо Васкес-Рейна

1
@amoeba див. researchgate.net/profile/Francisco_Martinez-Murcia/publication/…, який показує збільшення дисперсії з k
Hanan Shteingart

було б цікаво побачити, звідки він бере цей графік, при першому погляді на дисертацію, схоже, його було складено так, щоб відповідати його поясненням у розділах вступу. Можливо, його фактичне моделювання, але його не пояснено, і це, звичайно, не результат його фактичних експериментів, які нижчі ...
Xavier Bourret Sicotte

Відповіді:


51

чому б моделі, засвоєні за допомогою резюме з відпусткою, мали більшу дисперсію?

[TL: DR] Підсумок останніх публікацій та дебатів (липень 2018 р.)

Ця тема широко обговорювалася як на цьому веб-сайті, так і в науковій літературі, з суперечливими поглядами, інтуїціями та висновками. Ще в 2013 році , коли це питання було першим запитали, домінуюча точка зору полягала в тому , що LOOCV призводить до більшої дисперсії очікуваної помилки узагальнення алгоритму навчання по виробництву моделей із зразків розміру .n(K1)/K

Однак ця думка видається неправильним узагальненням окремої справи, і я стверджую, що правильна відповідь: "це залежить ..."

Перефразовуючи Іва Грандвалета, автора статті 2004 року на тему, я б узагальнив інтуїтивний аргумент наступним чином:

  1. Якщо перехресна перевірка була середньою оцінкою незалежних оцінок : тоді резюме, що випускається з одного виходу, має бути порівняно меншою відмінністю між моделями, оскільки ми переміщуємо лише одну точку даних по складках, і тому навчальні набори між складками суттєво перекриваються.
  2. Це не вірно, коли навчальні набори сильно співвідносяться : кореляція може зростати з K, і це збільшення є причиною загального збільшення дисперсії у другому сценарії. Інтуїтивно, у цій ситуації резюме, що не випускається, може бути незрячим до існуючих нестабільностей, але не може бути спровоковано зміною єдиного пункту в навчальних даних, що робить його дуже варіабельним до реалізації навчального набору.

Експериментальні симуляції від мене та інших на цьому веб-сайті, а також дослідників у наведених нижче працях покажуть, що немає загальної правди щодо цієї теми. Більшість експериментів монотонно спадна або константа дисперсії з , але деякі окремі випадки показують збільшення дисперсії з .КKK

У решті цієї відповіді пропонується моделювання на прикладі іграшки та неофіційний огляд літератури.

[Update] Ви можете знайти тут альтернативне моделювання для нестійкої моделі в присутності викидів.

Моделювання на прикладі іграшки, що показують зменшення / постійну дисперсію

Розглянемо наступний приклад іграшки, коли ми підганяємо поліном ступеня 4 до галасливої ​​синусоїди. Ми очікуємо, що ця модель погано спрацьовує для невеликих наборів даних через переоснащення, як показує крива навчання.

введіть тут опис зображення

Зауважте, що ми побудували сюжет 1 - MSE для відтворення ілюстрації з ESLII сторінки 243

 Методика

Ви можете знайти код для цього моделювання тут . Підхід був такий:

  1. Сформувати 10000 точок з розподілу , де справжня дисперсія відомоϵsin(x)+ϵϵ
  2. Повторне повторення разів (наприклад, 100 або 200 разів). Під час кожної ітерації змінюйте набір даних шляхом перекомпонування точок від початкового розподілуNiN
  3. Для кожного набору даних : i
    • Виконайте перехресну перевірку K-кратного значення для одного значенняK
    • Зберігайте середню середньоквадратичну помилку (MSE) в K-складках
  4. Після завершення циклу над обчисліть середнє та стандартне відхилення MSE для наборів даних для того самого значенняi KiiK
  5. Повторіть описані вище кроки для всіх у діапазоні аж до залишення одного виходу CV (LOOCV){ 5 , . . . , N }K{5,...,N}

Вплив на зміщення і дисперсію МФБ по наборів даних.яKi

Ліва сторона : Складається на 200 точок даних, права рука : Згинається на 40 точок даних

введіть тут опис зображення

Стандартне відхилення MSE (через набори даних i) проти Kfolds

введіть тут опис зображення

З цього моделювання виходить, що:

  • При невеликій кількості точок даних, збільшення до або близько значно покращує як зміщення, так і дисперсію. Для більшого немає впливу ні на зміщення, ні на дисперсію.K K = 10 KN=40KK=10K
  • Інтуїція полягає в тому, що для занадто малих ефективних розмірів тренувань поліноміальна модель дуже нестабільна, особливо дляK5
  • Для більших - збільшення не має особливого впливу як на зміщення, так і на дисперсію.КN=200K

Неформальний огляд літератури

Наступні три статті досліджують ухил та розбіжність перехресної валідації

Кохаві 1995

Цей документ часто згадується як джерело аргументу, що LOOC має більшу дисперсію. У розділі 1:

"Наприклад, відпускний вихід майже є неупередженим, але він має велику дисперсію, що призводить до ненадійних оцінок (Efron 1983)"

Це твердження викликає велику плутанину, оскільки, схоже, це було від Ефрона в 1983 році, а не від Кохаві. І теоретичні аргументації Кохаві, і експериментальні результати суперечать цьому твердженню:

Дослідження 2 (Варіант резюме)

Дано набір даних та індуктор. Якщо індуктор стабільний при збуреннях, викликаних видаленням тестових примірників для складок у k-кратному CV для різних значень , то дисперсія оцінки буде однаковоюk

Експеримент У своєму експерименті Кохаві порівнює два алгоритми: дерево рішень C4.5 та класифікатор Naive Bayes у ​​кількох наборах даних із сховища UC Irvine. Його результати нижче: LHS - це точність проти складок (тобто зміщення), а RHS - це стандартне відхилення проти складок

введіть тут опис зображення

Насправді, лише дерево рішень для трьох наборів даних очевидно має більшу дисперсію для збільшення K. Інші результати показують зменшення або постійну дисперсію.

Нарешті, хоча висновок міг би бути сформульований сильніше, немає аргументів, що LOO має більш високу дисперсію, навпаки. З розділу 6. Підсумок

"перехресне підтвердження k-кратної з помірними значеннями k (10-20) зменшує дисперсію ... Оскільки k-зменшується (2-5) і вибірки стають меншими, виникає дисперсія через нестабільність самих навчальних наборів.

Чжан і Ян

Автори чітко поглядають на цю тему і чітко заявляють у розділі 7.1

Насправді, принаймні квадратична лінійна регресія, Бурман (1989) показує, що серед резюме k-кратних КВ, при оцінці похибки прогнозування, LOO (тобто n-кратний CV) має найменші асимптотичні зміщення та дисперсію. ...

... Тоді теоретичний розрахунок ( Lu , 2007) показує, що LOO має найменший зміщення та дисперсію одночасно серед усіх видалених n CV з усіма можливими виданими n_v видаленнями

Результати експериментів Аналогічно, експерименти Чжана вказують у бік зменшення дисперсії з K, як показано нижче для істинної моделі та неправильної моделі для рисунків 3 та рисунку 5.

введіть тут опис зображення

введіть тут опис зображення

Єдиний експеримент, для якого дисперсія зростає з - це для моделей Lasso та SCAD. Це пояснюється наступним чином на сторінці 31:K

Однак, якщо йдеться про вибір моделі, продуктивність LOO погіршується в мінливості, оскільки невизначеність вибору моделі збільшується через великий простір моделі, малі штрафні коефіцієнти та / або використання штрафних коефіцієнтів, керованих даними


11
+11! Нарешті відповідь з явним моделюванням! І це прямо суперечить висновку прийнятих на даний момент та найбільш схвалених відповідей. Що стосується вашого виведення: якщо дійсно «стабільність моделі є ключовим фактором», то один повинен бути в змозі створити імітацію , де дисперсія буде рости з . Я бачив два моделювання: ваші тут і це один і обидва показують , що дисперсія або зменшується , або залишається постійна з . Поки я не побачу моделювання зі збільшенням дисперсії, я буду дуже скептично ставитись до цього. КKK
амеба

4
@amoeba ось випадок, коли LOOCV не вдається: розглянемо n точок даних та інтерполяційний поліном ступеня n. Тепер подвойте кількість точок даних, додавши повтор праворуч на кожну існуючу точку. LOOCV каже, що помилка дорівнює нулю. Вам потрібно опустити складки, щоб отримати будь-яку корисну інформацію.
Пол

2
Для тих, хто зацікавився цією дискусією - продовжуємо спілкуватися в чаті: chat.stackexchange.com/rooms/80281/…
Xavier Bourret Sicotte

1
Чи враховували ви той факт, що з, наприклад, дозволяє повторити? Це не варіант з LOOCV, і тому його слід враховувати. k = 10kfoldk=10
D1X

1
@amoeba: re Kohavi / LOO та дисперсія. Я виявив, що LOO для деяких моделей класифікації може бути досить (на диво) нестабільним. Це особливо яскраво виражено в невеликому розмірі вибірки, і я думаю, що це пов'язано з тестовим випадком, який завжди належить до класу, який недостатньо представлений Wrt. весь зразок: у двійковій класифікації у стратифікованого відпустки-2-ауту ця проблема, схоже, не має (але я не перевіряла широко). Ця нестабільність додала б до спостережуваної дисперсії, зробивши LOO дотриманням інших варіантів k. IIRC, це відповідає висновкам Кохаві.
cbeleites

45

В -кратної перехресної перевірки розділять набір даних в однакового розміру неперекривающіхся підмножин . Для кожної складки тренується модель на , яка потім оцінюється на . Оцінювач перехресної валідації, наприклад, помилки прогнозування, визначається як середнє значення помилок прогнозування, отриманих для кожного згину.kkSSiSSiSi

Хоча між тестовими наборами, за якими оцінюються моделі, немає перекриття, між навчальними наборами існує перекриття для всіх . Перекриття є найбільшим для перехресної валідації "вивільнення". Це означає, що вивчені моделі є співвіднесеними, тобто залежними, а дисперсія суми корельованих змінних збільшується із величиною коваріації ( див. Wikipedia ):k>2

Var(i=1NXi)=i=1Nj=1NCov(Xi,Xj)

Таким чином, перехресне підтвердження виходу з одноразового використання має великі відмінності порівняно з CV з меншим .k

Однак зауважте, що хоча дворазова перехресна валідація не має проблеми з перекриттям навчальних наборів, вона часто також має великі дисперсії, оскільки навчальні набори лише вдвічі менші від початкового зразка. Хорошим компромісом є десятикратна перехресна перевірка.

Деякі цікаві статті, які стосуються цієї теми (з багатьох інших):


5
+1 (давно), але перечитавши свою відповідь зараз, мене бентежить наступний біт. Ви кажете, що дворазове резюме "часто також має велику дисперсію, тому що навчальні набори мають лише половину розміру". Я розумію, що мати навчальний набір у два рази менше - це проблема, але чому це дає "велику дисперсію"? Чи не повинен це бути "великий упередженість"? Тоді все питання вибору кількості складок стає компромісним відхиленням, яке саме так часто подається.
амеба

1
@Sebastian Я думаю , що «різниця» в даному контексті відноситься до дисперсії «накопиченої» продуктивність моделі (підсумовування по всьому згинів) , а не до дисперсії складок самому , так як ви маєте на увазі в останніх два пропозицій. k
амеба

3
Просто вивчав деяку літературу. Цікаво, що у Вступі до статистичного навчання Джеймс, Віттен, Хасті та Тібшірані кажуть, що LOOCV "дуже мінливий, оскільки заснований на одному спостереженні (x1, y1)". а в елементах статистичного навчання Hastie & Tibshirani & Friedman кажуть, що LOOCV "може мати велику дисперсію, оскільки N навчальних наборів настільки схожі один на одного".

2
це неправильно. Дисперсія повинна бути = . Ви маєте рацію, що чисельник більший, але знаменник також стає більшим. Σ Σ c o v ( x i , x j ) / n 2var[Σxi/n]ΣΣcov(xi,xj)/n2
денісен на півночі

3
Ні, це насправді не вся суть. Люди використовують резюме в k-кратному порядку, щоб отримати весь час єдину глобальну оцінку. Ви, звичайно, можете спробувати використовувати багаторазові оцінки іншими способами, але їх складання є одним із найпоширеніших способів оцінювання продуктивності методу моделювання. І саме це робить Eq 7.48 ESL.
Пол

27

[...] моя інтуїція підказує мені, що в резюме з відпусткою один-один видно порівняно меншу дисперсію між моделями, ніж у кратному резюме, оскільки ми переміщуємо лише одну точку даних по складках і, отже, навчальні набори між складками істотно перекриваються.K

Я думаю, що ваша інтуїція є розумною, якщо ви думаєте про передбачення, зроблені моделями на кожному відпустці. Вони ґрунтуються на корельованих / дуже схожих даних (повний набір даних мінус одна точка даних) і тому будуть робити подібні прогнози, тобто низьку мінливість.

Однак джерелом плутанини є те, що коли люди говорять про LOOCV, що призводить до високої мінливості, вони не говорять про передбачення, зроблені багатьма моделями, побудованими під час цього циклу перехресної перевірки на наборах виплат. Натомість вони говорять про те, якою мінливістю матиме ваша остаточна обрана модель (обрана через LOOCV), якщо ви тренуєте цю точну модель / параметри на нових навчальних наборах - навчальні набори, які ваша модель раніше не бачила. У цьому випадку мінливість була б високою.

Чому мінливість буде високою? Давайте трохи спростимо це. Уявіть, що замість того, щоб використовувати LOOCV для вибору моделі, у вас був лише один навчальний набір, а потім ви протестували модель, побудовану з використанням даних навчальних даних, скажімо, 100 разів на 100 одиничних тестових даних (бали даних не є частиною навчального набору) . Якщо ви вибираєте набір моделей та параметрів, який найкраще підходить для цих 100 тестів, ви виберете той, який дозволяє цьому конкретному навчальному набору справді добре передбачити дані тесту. Ви потенційно можете вибрати модель, яка охоплює 100% асоціацій між даним навчальним набором даних та даними про витримку. На жаль, деяка частина цих асоціацій між наборами навчальних і тестових даних буде шумовою або хибною асоціацією, оскільки, хоча тестовий набір змінюється, і ви можете визначити шум з цього боку, навчальний набір даних не відповідає, і ви не можете визначити, що пояснюється дисперсія через шум. Іншими словами, що це означає, що перевершили ваші прогнози до цього конкретного навчального набору даних.

Тепер, якби ви повторно тренували цю модель з однаковими параметрами кілька разів на нових навчальних наборах, що б сталося? Добре, що модель, яка є придатною для певного набору навчальних даних, призведе до варіабельності її прогнозування, коли навчальний набір зміниться (т. Е. Трохи змінить навчальний набір і модель істотно змінить його прогнози).

Оскільки всі складочки в LOOCV сильно співвідносяться, це схоже на випадок вище (той же навчальний набір; різні бали тестування). Іншими словами, якщо цей конкретний навчальний набір має деяку хибну кореляцію з цими тестовими балами, у вас модель буде мати труднощі визначити, які кореляції є реальними, а які - хибними, оскільки, хоча тестовий набір змінюється, навчальний набір не має.

Навпаки, менш співвіднесені навчальні складки означають, що модель підходить до декількох унікальних наборів даних. Отже, у цій ситуації, якщо ви перекваліфікуєте модель на інший новий набір даних, це призведе до аналогічного прогнозування (тобто невеликої змінності).


4
Я думаю, що ця відповідь пояснює набагато більше, ніж прийнята відповідь, і особливо пояснює прийняту відповідь.
D1X

що ви маєте на увазі під "" Тепер, якби ви повторно тренували цю модель з однаковими параметрами кілька разів на нових навчальних наборах, що б сталося? ". Тренування означає пошук параметрів, правда? ти мав на увазі сказати гіперпараметри?
MiloMinderbinder

14

Хоча це питання досить старе, я хотів би додати додаткову відповідь, тому що я думаю, що варто уточнити це ще трохи.

Моє запитання частково мотивоване цією темою: Оптимальна кількість складок у перехресній валідації в K-кратну кількість: чи завжди резюме, що залишає один раз, найкращий вибір? . Відповідь наводить на думку, що моделі, засвоєні з перехресною валідацією «відхід один-один», мають більшу дисперсію, ніж ті, що вивчаються при регулярній перехресній валідації у K-кратному стані, що робить CV-рейтинг гіршим вибором.

Ця відповідь не говорить про це, і це не повинно. Давайте розглянемо відповідь, надану там:

Перехресна перевірка, що виходить з виходу, як правило, не призводить до кращої продуктивності, ніж K-кратна, і, швидше за все, до гіршої, оскільки має відносно високу дисперсію (тобто її значення змінюється більше для різних зразків даних, ніж значення для k-кратна перехресна перевірка).

Мова йде про продуктивність . Тут продуктивність слід розуміти як продуктивність моделі оцінювача помилок . Те, що ви оцінюєте за допомогою k-fold або LOOCV, - це ефективність моделі, як при використанні цих методів для вибору моделі, так і для самої оцінки похибки. Це НЕ дисперсія моделі, це дисперсія оцінника помилки (моделі). Дивіться приклад (*) нижче.

Однак моя інтуїція підказує мені, що в резюме на випуск один-один видно порівняно меншу відмінність між моделями, ніж у резюме в K-складку, оскільки ми переміщуємо лише одну точку даних по складках, і тому навчальні набори між складками суттєво перекриваються.

Дійсно, є менша відмінність між моделями. Вони навчаються наборам даних, які мають загальне спостереження ! Зі збільшенням вони стають практично тією ж моделлю (якщо припустити відсутність стохастичності).n2n

Саме ця менша дисперсія та вища кореляція між моделями змушує оцінювач, про який я говорив вище, більше розбіжності, оскільки цей оцінювач є середнім для цих корельованих величин, а дисперсія середнього значення корельованих даних вище, ніж у некорельованих даних . Тут показано, чому: дисперсія середнього значення співвіднесених і некорельованих даних .

Або йти в іншому напрямку, якщо К низький у К-кратному резюме, навчальні набори будуть сильно відрізнятися за складками, і отримані моделі, швидше за все, будуть різними (отже, більшою дисперсією).

Справді.

Якщо вищенаведений аргумент є правильним, чому б моделі, вивчені за допомогою резюме з відпусткою, мали більшу дисперсію?

Вищенаведений аргумент правильний. Тепер питання неправильне. Варіантність моделі - це зовсім інша тема. Існує дисперсія, де є випадкова величина. У машинному навчанні ви маєте справу з безліччю випадкових змінних, зокрема і не обмежуючись ними: кожне спостереження є випадковою змінною; вибірка - випадкова величина; модель, оскільки вона навчається з випадкової величини, є випадковою змінною; оцінювач помилки, яку буде створювати ваша модель, стикаючись із сукупністю, - випадкова величина; і останнє, але не менш важливе значення, помилка моделі є випадковою змінною, оскільки, ймовірно, виникає шум у сукупності (це називається непридатною помилкою). Також може бути більше випадковості, якщо в процесі навчання моделі є стохастичність. Важливим є розмежування всіх цих змінних.


(*) Приклад : Припустимо , у вас є модель з реальною помилки , де ви повинні зрозуміти як помилка , що модель виробляє по всій популяції. Оскільки у вас є вибірка, складена з цієї сукупності, ви використовуєте методи перехресної перевірки для цього зразка для обчислення оцінки , яку ми можемо назвати . Як і кожен оцінювач, є випадковою змінною, це означає, що вона має свою дисперсію, та власне зміщення, . - саме те, що вище при використанні LOOCV. У той час як LOOCV є менш зміщеною оцінкою , ніж зerrerrEerr~err~var(err~)E(err~err)var(err~)kfoldk<n , вона має більше дисперсії. Для подальшого розуміння, чому бажаний компроміс між зміщенням та відхиленням , припустимо, помилка , і що у вас є два оцінювачі: та . Перший виробляє цей вихідerr=10err~1err~2

err~1=0,5,10,20,15,5,20,0,10,15...
тоді як другий виробляє
err~2=8.5,9.5,8.5,9.5,8.75,9.25,8.8,9.2...

Останній, хоча він має більшу упередженість, слід віддати перевагу, оскільки він має набагато меншу дисперсію та прийнятну зміщення, тобто компроміс ( компроміс з ухилом відхилення ). Зверніть увагу, що ви не бажаєте дуже низької дисперсії, якщо це тягне за собою велику упередженість!


Додаткове зауваження : У цій відповіді я намагаюся уточнити (на що я думаю) помилкові уявлення, що оточують цю тему, і, зокрема, намагаюся відповісти по пункту та точно сумніватися у запитувача. Зокрема, я намагаюся зрозуміти, про яку дисперсію ми говоримо, про що тут по суті запитують. Тобто я пояснюю відповідь, яка пов'язана з ОП.

Незважаючи на це, хоча я навожу теоретичні міркування, що стоять за твердженням, ми поки не знайшли переконливих емпіричних доказів, які б це підтверджували. Тож будьте дуже обережні.

В ідеалі слід спочатку прочитати цю публікацію, а потім посилатися на відповідь Ксав'є Бурре Сікотта, яка дає глибоку дискусію про емпіричні аспекти.

І останнє, але не менш важливе, слід враховувати щось інше: Навіть якщо дисперсія при збільшенні залишається рівною (як ми емпірично не довели інше), з досить мала дозволяє повторити ( повторне k-кратне ), що, безумовно, слід зробити, наприклад, . Це ефективно зменшує дисперсію і не є можливим при виконанні LOOCV.kkfoldk10 × 10fold


2
Зверніть увагу , що розрахунки , представлені в новому відповіді Ксавьє , а також в більш ранній Q Джейк Вестфол , як показують , що дисперсія зменшується з . Це прямо суперечить вашій відповіді. Поки що я не бачив жодного моделювання, яке б підтримувало твердження, що дисперсія збільшується з і є найбільшою для LOOCV. KK
амеба

3
Вони демонструють, що дисперсія зменшується як до певної точки, де вона залишається плоскою. Теоретично показано, що середнє значення співвідносних зразків має більшу дисперсію, тому теоретично показує результат. Якщо говорити, ви праві, фактичного експерименту, який показує, що цього немає . Я зроблю все можливе, щоб його сконструювати. kN
D1X

Так, зниження з до відбулося через помилку у відповіді Ксав'є. Тепер це фіксовано, і дисперсія дійсно залишається такою ж у цьому діапазоні. Зважаючи на те, що два незалежних моделювання демонструють однаковий ефект, я продовжую скептично ставитися до того, що LOOCV може мати більшу дисперсію. Ваш теоретичний аргумент дуже махає руками. Середнє значення співвідносних зразків має більшу дисперсію лише тоді, коли все інше однакове. Не ясно, що все інше однакове для 10-кратного проти N-кратного резюме. Чекаємо вашого моделювання. K = 10 K = NKK=10K=N
амеба

1
Я ще не переглянув ці папери, я буду дивитись на них, коли встигну. Проте лінійні моделі OLS - це дуже прості моделі, вони дійсно піддаються низькій дисперсії. Мало того, вони закрили формули для перехресної перевірки.
D1X

1
+1 ваші правки роблять відповідь набагато зрозумілішою - ми орієнтуємося на вплив кореляції між навчальними наборами -> більша дисперсія. На практиці, хоча (експериментально) здається, що навчальні набори не завжди співвідносяться між собою.
Xavier Bourret Sicotte

12

Питання справді тонкі. Але це точно не вірно, що LOOCV має більшу дисперсію в цілому. Нещодавній документ обговорює деякі ключові аспекти та розглядає декілька, здавалося б, поширених помилок щодо перехресної перевірки.

Yongli Zhang та Yuhong Yang (2015). Перехресне підтвердження для вибору процедури вибору моделі. Journal of Econometrics, vol. 187, 95-112.

Такі помилки часто зустрічаються в літературі, навіть досі:

"Резюме" Випуск-один-вихід "(LOO) має менший ухил, але більший відхилення, ніж резюме, яке залишає більше

Цей погляд досить популярний. Наприклад, Кохаві (1995, розділ 1) стверджує: "Наприклад, відпустка майже не є об'єктивною, але вона має велику дисперсію, що призводить до недостовірних оцінок". Однак твердження, як правило, не відповідає дійсності.

Більш детально:

У літературі, навіть включаючи останні публікації, є надмірно прийняті рекомендації. Загальна пропозиція Кохаві (1995) використовувати 10-кратний резюме широко прийнята. Наприклад, Krstajic et al (2014, стор. 11) стверджують: "Кохаві [6] та Хасті та ін [4] емпірично показують, що перехресне підтвердження V-кратної порівняно з перехресною валідацією" один-один "має меншу дисперсію". Отже, вони приймають рекомендації 10-кратного резюме (з повторенням) для всіх своїх чисельних досліджень. На наш погляд, така практика може бути оманливою. По-перше, не повинно бути жодної загальної рекомендації, яка б не враховувала мету використання резюме. Зокрема, вивчення зміщення та відхилення оцінки точності CV для кандидатської моделі / процедури моделювання може бути дуже різним питанням від оптимального вибору моделі (з будь-якою з двох цілей вибору моделі, зазначених раніше). По-друге, навіть обмежене контекстом оцінки точності, твердження, як правило, не є правильним. Для моделей / процедур моделювання з низькою нестабільністю LOO часто має найменшу мінливість. Ми також продемонстрували, що для сильно нестабільних процедур (наприклад, LASSO з pn, значно більшим, ніж n), 10-кратний або 5-кратний резюме, зменшуючи при цьому варіабельність, може мати значно більший MSE, ніж LOO через ще гірше збільшення зміщення. Для моделей / процедур моделювання з низькою нестабільністю LOO часто має найменшу мінливість. Ми також продемонстрували, що для сильно нестабільних процедур (наприклад, LASSO з pn, значно більшим, ніж n), 10-кратний або 5-кратний резюме, зменшуючи при цьому варіабельність, може мати значно більший MSE, ніж LOO через ще гірше збільшення зміщення. Для моделей / процедур моделювання з низькою нестабільністю LOO часто має найменшу мінливість. Ми також продемонстрували, що для сильно нестабільних процедур (наприклад, LASSO з pn, значно більшим, ніж n), 10-кратний або 5-кратний резюме, зменшуючи при цьому варіабельність, може мати значно більший MSE, ніж LOO через ще гірше збільшення зміщення.

Загалом, з рис. 3-4 найкращі тут реферати ЛОО та повторювані 50- та 20-кратні резюме, в 10 разів - значно гірше, а k ≤ 5 - явно поганий. Для прогнозного оцінювання продуктивності ми схильні вважати, що LOO, як правило, найкращий або серед найкращих для фіксованої моделі або дуже стабільної процедури моделювання (наприклад, BIC в нашому контексті) за зміщенням і дисперсією, або досить близькою до найкращої в MSE для більш нестабільної процедури (наприклад, AIC або навіть LASSO з p ≫ n). Незважаючи на те, що 10-кратний резюме (з повтореннями), безумовно, може бути найкращим часом, але частіше, він знаходиться в незручному положенні: він більш ризиковий, ніж LOO (через проблему зміщення) для оцінки помилок прогнозування, і зазвичай гірший, ніж видалення -n / 2 CV для визначення найкращого кандидата.


4
Чи можна трохи розширити цю відповідь, можливо, узагальнити деякі ключові аспекти, викладені в роботі?
Срібна рибка

3
Дуже цікава папір. Переглядаючи Kohavi (1995), я відчув, що багато тверджень неможливо широкі і значною мірою необґрунтовані. Це документ народної мудрості, критичний допит якого давно назрів.
Пол

3

Перш ніж обговорювати зміщення та дисперсію, перше питання:

Що оцінюється за допомогою перехресної перевірки?

В нашій JMLR статті 2004 , ми стверджуємо , що, без якого - або подальшого припущення, - кратної перехресна перевірка оцінює очікувану похибка узагальнення алгоритму навчання виробляти моделі з зразків розміру . Тут очікують відносно навчальних зразків. З цієї точки зору, зміна означає зміну розрахункової кількості: порівняння зміщення та дисперсії для різних значень слід ставитися обережно.н ( К - 1 ) / К К КKn(K1)/KKK

Зважаючи на це, ми надаємо експериментальні результати, які показують, що дисперсія може монотонно зменшуватися з , або що вона може бути мінімальною для проміжного значення. Ми гадаємо, що перший сценарій слід зустріти для стабільних алгоритмів (для поточного розподілу даних), а другий - для нестабільних алгоритмів.K

моя інтуїція підказує мені , що у відпустці-один з CV один має побачити щодо нижчу дисперсію між моделями , ніж в - кратної CV, так як ми тільки зрушуючи одну точки даних через складку і тому тренувальні набори між складками перекриваються по суті.K

Ця інтуїція буде правильним , якщо перехресна перевірка була в середньому незалежні оцінки, але вони можуть бути тісно пов'язані, і ця кореляція може збільшитися з . Це збільшення є причиною загального збільшення дисперсії у другому вищезгаданому сценарії. Інтуїтивно, в цій ситуації резюме, що не випускається, може бути незрячим для існуючих нестабільностей, але може не бути спровокованим зміною точки сионга в навчальних даних, що робить його дуже змінним до реалізації навчального набору.K


4
+1. Ласкаво просимо до CrossValidated! Приємно бачити, що ви долучитесь до дискусії. Я повинен перечитати вашу статтю 2004 року, щоб оновити її в пам’яті, але мені цікаво, чи більше шансів на те, що алгоритми, які люди використовують на практиці з CV, є стабільними чи нестабільними? Тут я бачив два моделювання: одне з використанням полінома та інше за допомогою регресії . В обох випадках дисперсія зменшувалася з аж до LOOCV. Який алгоритм слід використовувати для спостереження за різними результатами? K
амеба

0

Я думаю, що є більш пряма відповідь. Якщо ви збільшите k, тестові набори стають все меншими та меншими. Оскільки складки відбираються випадковим чином, це може статися з невеликими тестовими наборами, але не настільки ймовірно, що з більшими, що вони не є репрезентативними для випадкового переміщення. Один набір тестів міг би містити всі складно передбачувані записи, а інший - прості. Тому дисперсія є великою, коли ви прогнозуєте дуже малі тестові набори в рази.


Дякую. Цікаво, що цей аргумент здається дещо ортогональним тому, який представлений у прийнятій зараз відповіді, яка, якщо я правильно зрозумів, зосереджується натомість на коваріації між тренувальними складками. Було б добре побачити, як ви ставите цю відповідь до відповіді у відповіді @ Gitte. Xi
Амеліо Васкес-Рейна

4
видається, що ви говорите про мінливість прогнозів моделей для наборів утримування під час перехресної перевірки. Я не думаю, що це викликає особливий інтерес. Цікавить, чи буде ваша остаточна настроєна модель сильно відрізнятися в прогнозах, які вона робить, якщо її слід навчати за різними даними (тобто, оцінка правдивості вашої моделі дійсно змінюється в залежності від навчального набору)
капитан_ахаб

І як би ви оцінили очікувану варіацію на ще небачених даних, якби не через спостережувану варіацію серед послідовно прогнозованих наборів даних, які були невідомі на той час? Я розумію, що мінливість, що випливає лише з експериментальної установки, не представляє інтересу. Моя відповідь: Тому потрібно вибрати експериментальну установку, яка не вводить нових видів змінності. Якщо це зробити, два різновиди мінливості неможливо розрізнити, і важче оцінити розширення того виду, який представляє інтерес.
Девід Ернст

1
ви можете показати це за допомогою симуляцій (я буду шукати папір). Я не впевнений, чи говоримо ми раніше, але коли поспішні та люди говорять про високу кореляцію між навчальними наборами в LOOCV, вони підкреслюють, що ви в основному продовжуєте тренувати свою модель на тому ж наборі даних тренувань. Це призводить до перевищення цього навчального набору даних. змінити набір даних про навчання, ти моделюєш прогнози для тестового прикладу X сильно зміниться. на відміну від того, якщо тренувальний набір був менш співвіднесений, ви можете використовувати абсолютно новий навчальний набір, і ви отримаєте подібний прогноз для тестового прикладу X.
Капитан_ахаб

Я думаю, що тут стосуються двох окремих питань. Збільшення k призводить до більшого збігу серед навчальних наборів, що має наслідки, про які ви згадуєте. (Я не сперечаюся ні з чим із цього). В той же час, збільшення k призводить до менших тестових наборів за один раз, а це означає, що записи, швидше за все, переміщуються небажаними способами в цих наборах. Я думаю, що для конкретного запитання це головна причина. Можуть бути також внески від перекриття навчальних наборів. (Є третій випуск, коли ви використовуєте повтори, тому що тестові набори також перекриваються.)
Девід Ернст
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.