Різниця кратних оцінок перехресної перевірки як : яка роль "стабільності"?


37

TL, DR: Схоже, що, всупереч часто повторюваним порадам, перехресне підтвердження виходу-один-один (LOO-CV) - тобтократне CV з(кількість складок), що дорівнює(число навчальних спостережень) - дає оцінку похибки узагальнення, яка є найменшою змінною для будь-якого, не найбільш змінною, припускаючи певнуумову стабільності або моделі / алгоритму, набору даних, або обох (я не впевнений, який це правильно, оскільки я не дуже розумію цю умову стабільності).KKNK

  • Чи може хтось чітко пояснити, що саме таке умова стабільності?
  • Чи правда, що лінійна регресія є одним із таких "стабільних" алгоритмів, маючи на увазі, що в цьому контексті LOO-CV є строго кращим вибором резюме, що стосується зміщення та відмінності оцінок помилки узагальнення?

Загальноприйнята мудрість полягає в тому, що вибір у кратному CV слідує за зміною дисперсійного компромісу, такі менші значення (наближаються до 2) призводять до оцінок помилки узагальнення, які мають більше песимістичного зміщення, але меншу дисперсію, а більш високі значення з (наближається ) призводять до оцінок, які менш зміщені, але з більшою дисперсією. Умовне пояснення цього явища дисперсії, що збільшується з , подано, мабуть, найбільш чітко в «Елементах статистичного навчання» (Розділ 7.10.1):KKKKNK

При K = N оцінювач перехресної валідації є приблизно неупередженим щодо справжньої (очікуваної) помилки прогнозування, але може мати велику дисперсію, оскільки N "навчальні набори" настільки схожі один на одного.

Мається на увазі, що помилок перевірки є більш корельованими, так що їх сума є більш змінною. Цей рядок міркувань повторювався в багатьох відповідях на цьому веб-сайті (наприклад, тут , тут , тут , тут , тут , тут і тут ), а також у різних блогах тощо. Натомість детальний аналіз натомість ніколи не наводиться лише інтуїція або короткий нарис того, як може виглядати аналіз.N

Однак можна знайти суперечливі твердження, зазвичай посилаючись на певну умову "стабільності", яку я насправді не розумію. Наприклад, ця суперечлива відповідь наводить кілька абзаців з документа 2015 року, де, серед іншого, сказано: "Для моделей / процедур моделювання з низькою нестабільністю LOO часто має найменшу мінливість" (наголос додано). Цей документ (розділ 5.2), схоже, погоджується, що LOO являє собою найменш змінний вибір тих пір, поки модель / алгоритм є "стабільною". Займаючи ще одну позицію щодо цього питання, є також цей документ (Дослідження 2), в якому сказано: "Варіантність перехресної перевірки [[]] не залежить відKkk, "знову посилаючись на певну умову" стабільності ".

Пояснення, чому LOO може бути найбільш змінним кратним CV, є досить інтуїтивним, але існує контрінтуїція. Кінцева оцінка CV середньої квадратичної помилки (MSE) - це середнє значення оцінок MSE у кожній складці. Оскільки збільшується до N , оцінка CV - це середнє значення зростаючої кількості випадкових величин. І ми знаємо, що дисперсія середнього зменшується із усередненням змінних. Тож для того, щоб LOO був найбільш змінним К- кратним CV, повинно бути правдою, що збільшення дисперсії внаслідок посиленої кореляції між оцінками MSE переважає зменшення дисперсії через те, що більша кількість усереднених складокK. І зовсім не очевидно, що це правда.KNK

Ставши ретельно розгубленим, думаючи про все це, я вирішив запустити невелике моделювання для випадку лінійної регресії. Я імітованим 10000 наборів даних з = 50 і 3 некоррелірованних предикторами, кожен раз оцінкою помилки узагальнення з використанням Д.К. -кратного резюме з K = 2, 5, 10, або 50 = N . Код R тут. Ось отримані засоби та відхилення оцінок резюме для всіх 10000 наборів даних (в одиницях MSE):NKKN

         k = 2 k = 5 k = 10 k = n = 50
mean     1.187 1.108  1.094      1.087
variance 0.094 0.058  0.053      0.051

Ці результати показують очікувану закономірність того, що більш високі значення призводять до менш песимістичного зміщення, але також підтверджують, що дисперсія оцінок CV є найнижчою, не найвищою у випадку LOO.K

Отже, виявляється, що лінійна регресія є одним із "стабільних" випадків, згаданих у вищезазначених статтях, де збільшення пов'язане зі зменшенням, а не збільшенням дисперсії в оцінках CV. Але я все ще не розумію:K

  • Яка саме ця умова "стабільності"? Чи стосується вона моделей / алгоритмів, наборів даних або обох до певної міри?
  • Чи існує інтуїтивний спосіб думати про цю стабільність?
  • Які ще є приклади стабільних і нестабільних моделей / алгоритмів або наборів даних?
  • Чи порівняно безпечно припустити, що більшість моделей / алгоритмів або наборів даних є "стабільними", а отже, зазвичай слід вибирати настільки високо, наскільки це обчислювально можливо?K

1
+1. Що саме "означає" у ваших результатах моделювання? Середня оцінка CV похибки узагальнення (середнє для 10000 наборів даних)? Але з чим ми маємо це порівняти? Більш змістовно було б показати зміщення, тобто кореневе середнє-квадратне відхилення від істинної помилки узагальнення. Також, що таке "справжня помилка узагальнення" в цьому випадку? Справжня помилка узагальнення оцінки в заданому наборі даних N = 100? Або очікуване значення справжньої помилки узагальнення (очікуване значення для всіх N = 100 наборів даних)? Або щось інше?
амеба каже, що повернеться Моніка

3
+1. Після короткого огляду en.wikipedia.org/wiki/…, здається, що в цьому контексті стабільність означає, що алгоритм дає подібні результати на навчальних наборах з прикладами та N - 1 . Де подібне означає різницю wrt, якась функція втрат обмежена деяким низьким значеннямNN-1
Łukasz Grad

1
Крім того, я нещодавно говорив про це з @DikranMarsupial (який, мабуть, є одним з наших головних експертів з перехресної перевірки тут, у CV), тут у коментарях - він запропонував прочитати документ Кохаві 1995 року . Дікран також говорив про стабільність. На жаль, я відтоді не стежив за цим.
Амеба каже, що поверніть Моніку

2
Я так не думаю, @Jake. Те, що я написав, визнає недійсною вашу "контр-інтуїцію", але головна "інтуїція" (щодо моделей з різних складок, які сильно залежать) все ще може бути справедливою.
амеба каже, що повернеться Моніка

1
Ще одне моделювання, що підтверджує ваші висновки, що дисперсія зменшується за допомогою : stats.stackexchange.com/a/357749/28666 . К
Амеба каже, що повернеться Моніка

Відповіді:


15

Ця відповідь випливає з моєї відповіді у зміщенні та розбіжності у перехресній валідації «відхід-один-проти» до K-кратного, яка обговорює, чому LOOCV не завжди призводить до більшої дисперсії. Слідуючи аналогічному підходу, я спробую виділити випадок, коли LOOCV призводить до більшої дисперсії в присутності залишків та "нестабільної моделі".

Алгоритмічна стійкість (теорія навчання)

Тема алгоритмічної стійкості - це нещодавній, а останні кілька років були доведені декілька класичних, впливових результатів. Ось кілька робіт, які часто цитуються

Найкраща сторінка для розуміння - це, безумовно, вікіпедійна сторінка, яка пропонує чудовий підсумок, написаний, імовірно, дуже обізнаним користувачем.

Інтуїтивне визначення стійкості

Інтуїтивно зрозумілий, стабільний алгоритм - це той, для якого прогнозування не сильно змінюється, коли дані тренувань незначно змінюються.

Формально існує півдесятка версій стабільності, пов'язаних між собою технічними умовами та ієрархіями, див. Цю графіку тут, наприклад:

введіть тут опис зображення

Ціль, однак, проста, ми хочемо отримати чіткі межі похибки узагальнення конкретного алгоритму навчання, коли алгоритм задовольняє критерію стійкості. Як можна було б очікувати, чим жорсткішим буде критерій стійкості, тим жорсткішою буде відповідна межа.

Позначення

Наступні позначення - із статті вікіпедії, яка сама копіює папір Буске та Еліссея:

  • Навчальна множина проведено в невідомому розподілі DS={z1=(x1,y1),...,zm=(xm,ym)}
  • Функція втрати гіпотези f стосовно прикладу z визначається як V ( f , z )VfzV(f,z)
  • Ми змінюємо навчальний набір, видаляючи -й елемент: S | я = { г 1 , . . . , Г я - 1 , г я + 1 , . . . , z m }iS|i={z1,...,zi1,zi+1,...,zm}
  • Або шляхом заміни на -й елемент: S я = { г 1 , . . . , z i - 1 , ziSi={z1,...,zi1,zi,zi+1,...,zm}

Формальні визначення

Мабуть, найсильнішим поняттям стійкості, яким, як очікується, повинен керуватися цікавий алгоритм, є однакова стабільність :

Уніфікована стійкість Алгоритм має рівномірну стабільність з урахуванням функції втрат V, якщо має місце наступне:βV

SZm  i{1,...,m},  sup|V(fs,z)V(fS|i,z)|  β

Розглядаючи як функцію , термін β можна записати як β m . Ми говоримо, що алгоритм стабільний, коли β m зменшується на 1mββmβm . Трохи слабша форма стійкості:1m

Стабільність гіпотези

i{1,...,м},  Е[ |V(fс,z)-V(fS|i,z)| ] β

Якщо вилучити одну точку, різницю результатів алгоритму навчання вимірюють усередненою абсолютною різницею втрат ( норма ). Інтуїтивно зрозумілі: невеликі зміни у вибірці можуть спричинити лише перехід алгоритму до гіпотез, що знаходяться поблизу.L1

Перевага цих форм стійкості полягає в тому, що вони забезпечують межі для зміщення та дисперсії стійких алгоритмів. Зокрема, Буске довів ці межі стійкості до Уніфікованої та Гіпотези в 2002 році. З того часу було зроблено багато роботи, щоб спробувати послабити умови стабільності та узагальнити межі, наприклад, у 2011 році, Кале, Кумар, Васильвіцький стверджують, що це означає стабільність квадратів забезпечує кращі дисперсійні кількісні межі зменшення дисперсії.

Деякі приклади стабільних алгоритмів

Показано, що такі алгоритми є стабільними і мають доведені межі узагальнення:

  • Регульована найменша квадратна регресія (з відповідною попередньою)
  • Класифікатор KNN з функцією втрати 0-1
  • SVM з обмеженим ядром і великою постійною регуляризацією
  • М'який запас SVM
  • Мінімальний алгоритм відносної ентропії для класифікації
  • Варіант регуляторів упаковки

Експериментальне моделювання

Повторюючи експеримент з попереднього потоку ( див. Тут ), ми тепер вводимо певне співвідношення залишків у набір даних. Зокрема:

  • [-.5,.5]
  • [-20,20]

3

введіть тут опис зображення

Виконання моделювання, як раніше, та побудова графіку середнього МСЕ та дисперсії МСЕ дає результати, дуже схожі на експеримент 2 з документа Bengio & Grandvalet 2004 .

Ліва сторона : немає залишків. Права рука : 3% видатки.

введіть тут опис зображення

введіть тут опис зображення

(див. зв'язаний папір для пояснення останньої цифри)

Пояснення

Цитуючи відповідь Іва Грандвалета на іншій темі:

Інтуїтивно зрозуміло, що [у ситуації нестабільних алгоритмів] резюме, що випускається один раз, може бути сліпим для існуючих нестабільностей, але може не спрацьовувати, змінюючи єдину точку в навчальних даних, що робить його дуже змінним до реалізації навчальний набір.

На практиці досить складно моделювати збільшення дисперсії через LOOCV. Це вимагає певної комбінації нестабільності, деяких людей, але не надто багато, і великої кількості ітерацій. Можливо, цього очікується, оскільки лінійна регресія виявилася досить стабільною. Цікавим експериментом було б повторити це для більш високих розмірних даних та більш нестабільного алгоритму (наприклад, дерево рішень)


+1, але я сподіваюся, що ця тема може врешті-решт закритись як дублікат зв'язаного (я б зачекав, поки закінчиться період виграшних платежів, і обговорення підпадуть, і я побачу, яка відповідь у кінцевому підсумку буде прийнята). Я прокоментую більше пізніше.
Амеба каже, що повернеться до Моніки

Я не дуже впевнений, що це питання - це дублікат. Моє запитання використовує дисперсію випуску LOO насамперед як спосіб обрамлення основних питань, які полягають у спробі отримати доступне пояснення того, що означає "стабільність" - див. Питання, вказані на кулі вгорі та внизу ОП. Якщо говорити про це, хоча ця відповідь корисна (+1), я не бачу, що ви намагалися відповісти на питання стабільності ... ви вживаєте цей термін пару разів, але, здається, ви робите це таким чином, що припускає, що читач вже знає, що це означає. Не впевнений, що можу прийняти відповідь у її нинішній формі.
Джейк Вестпад

1
@JakeWestfall Коли я писав, що "сподіваюся", що ця тема може врешті-решт закритись як дублікат, я мав на увазі, що сподіваюся, що прийнята відповідь у цій темі зрештою буде досить великою, що вона висвітлює речі, про які ви запитали :) Погляньте на документ Bengio & Grandvalet, Експеримент 2. Вони показують, що, використовуючи лінійну регресію та гауссові дані, вони отримують мінімальну дисперсію для LOOCV (це теж ваш результат), але якщо дані містять деяку частку інших людей, LOOCV має більшу дисперсію, ніж 10- складка або близько того. Я думаю, це натякає на те, що стосується відповідної "стабільності".
амеба каже, що повернеться до Моніки

3
Я люблю це @XavierBourretSicotte. Дякуємо, що зробили таку велику роботу над цією відповіддю.
Джейк Уестпад

1
Так, цитуючи цей документ: pdfs.semanticscholar.org/bf83/… : "Стабільний алгоритм має властивість, що заміна одного елемента в його навчальному наборі не сильно змінює його результат. Як наслідок, емпірична помилка, якщо розглядати її як випадкова змінна, повинна мати невелику дисперсію. Стабільні алгоритми можуть бути хорошими кандидатами за те, що їх емпірична помилка буде близькою до їх помилки узагальнення.
Ксав'є Бурет Сікотта

2

Я дам свою відповідь в контексті цитованого вами абзацу:

При K = N оцінювач перехресної валідації є приблизно неупередженим щодо справжньої (очікуваної) помилки прогнозування, але може мати велику дисперсію, оскільки N "навчальні набори" настільки схожі один на одного.

Оцінювач резюме справжньої (очікуваної) помилки прогнозування базується на прикладі навчального набору, тож тут, очікування над зразками навчальних наборів, коли я це правильно розумію.

Отже, те, що в цьому пункті щодо "великої дисперсії" говорить, є "високою" різницею між очікуваною помилкою та помилкою, оціненою CV (що тут, середнє значення в рази).

Це має сенс, тому що модель підходить до певного навчального набору і тому, що всі тренувальні складочки настільки схожі в рамках відпустки. Однак, хоча складові тренінгу дуже схожі в рамках циклу резюме, оцінка, ймовірно, значно відрізняється, якщо ми поміняємо навчальні зразки на резюме. У резюме в k-кратному стані, оскільки ми «урізноманітнюємо» складові тренувань, ми маємо деякий усереднюючий вплив, а для k-кратних оцінок оцінки менше змінюються.

Інакше кажучи, оцінювач резюме, що вилучається, майже не схожий на метод утримування, якщо ви не обертаєте складки та не базуєте свою оцінку помилок на одному наборі перевірки. Знову ж таки, на прикладах тренувань буде велика відмінність порівняно з оцінками з k-кратного результату, де ви середньо оцінюєте складки, вже тренуючи дещо різноманітні моделі в межах k-кратного раунду (іншими словами, якщо ви поміняєте навчальні набори, оцінки помилка через k-fold, мабуть, не сильно відрізнятиметься).

Редагувати:

Коли я читаю тут кілька відповідей про перехресне підтвердження та Інтернет взагалі, я думаю, що існує деяка плутанина, до якого оцінювача ми маємо на увазі. Я думаю, що деякі люди посилаються на модель з великою дисперсією (з МЛ розмови про втрати, що мають домінуючу дисперсійну складову) порівняно з великою дисперсією k-кратного оцінювача CV. Крім того, інший набір відповідей називає дисперсію як дисперсію вибірки щодо складок, коли хтось каже, що "k-fold має велику дисперсію". Тож я пропоную бути конкретними, оскільки відповіді в будь-якому випадку різні.


Під час обговорення варіації моє припущення полягає в тому, що ми говоримо про дисперсію оцінювача резюме на навчальному наборі D, як визначено тут: stats.stackexchange.com/questions/365224/… і тут: stats.stackexchange.com/questions/325123/… . Ів Грандвалет і Бенджо в своєму документі 2004 року стверджують, що резюме оцінює очікувану помилку прогнозування. Ви можете побачити його відповідь тут: stats.stackexchange.com/a/358138/192854
Xavier Bourret Sicotte

Якщо ви базуєте свою відповідь на різних визначеннях дисперсії, я думаю, було б корисно додати формальні визначення та формули. Можливо, я повинен зробити це і в своїх відповідях ..
Xavier Bourret Sicotte

Так, мені потрібно трохи ознайомитися з літературою, і я повинен додати кілька формул до відповіді. Цитата з "Елементи статистичного навчання" для мене все ще інтуїтивно зрозуміла, що LOOCV має велику дисперсію, якщо модель має велику дисперсію, оскільки вона є середньою в рази. Якщо модель має високий ухил, і LOOCV, і будь-які k-кратні оцінки повинні мати низьку дисперсію (незалежно від зміщення), оскільки прогнози не будуть сильно відрізнятися. Але точка в пункті була проблемою. що LOOCV порівняно з k-кратним для більшості випадків

Цитата виявилася неправильною - принаймні як узагальнення - дивіться декілька робіт, цитованих у моїх відповідях
Ксав'є Бюре Сікотта

1

Ми вже переживали це раніше - ви занадто математичні щодо мертвого коня. См (Stanford-Univ) класична робота Рона Kohavi на CV і діагонально-дисперсионную дилему тут . Коли ви закінчите читати це, ви не захочете виконувати LOOCV, і, ймовірно, буде залучено 10-кратне резюме та / або резюме з ухилом завантаження.

Вам також доведеться думати про великі набори даних, для яких LOOCV занадто обчислювально дорогий. В даний час LOOCV насправді не є варіантом для робочих процесів / трубопроводів більшості груп.

Яка саме ця умова "стабільності"? Чи стосується вона моделей / алгоритмів, наборів даних або обох до певної міри?

к=нк=нк=н

LREG як класифікатор може працювати, коли дані лінійно розділяються, але в середньому його зміщення буде занадто високим, оскільки багато наборів даних не є лінійно відокремлюваними.

Чи існує інтуїтивний спосіб думати про цю стабільність?

Не на мій погляд - оскільки загального правила щодо стабільності немає.

Які ще є приклади стабільних і нестабільних моделей / алгоритмів або наборів даних?

Це є відкритим і надто широким, оскільки можна надумати нескінченно велику кількість відповідей, що не було б корисно.

К

кк

кк


Дякуємо за ваші коментарі, але це, здається, не відповідає на питання.
Джейк Вестфалл

Див. Додану відповідь до ОП.
JoleT

3
Стаття лише обіймала, але вони, схоже, висловлюють свою заяву про те, що 10 разів найкращі на надзвичайно хитких місцях. Я не можу повірити, що це цитати 7k. Зважаючи на це, мабуть, є вагомі підстави вважати, що більше, ніж 10-кратна користь. Я буду більш ретельним читати, коли у мене є шанс.
Кліф АВ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.