Коли застосовні результати Шао щодо перехресної перевірки відпустки один раз?


23

У своїй роботі " Вибір лінійної моделі шляхом перехресної валідації" Джун Шао показує, що для задачі вибору змінної при багатоваріантній лінійній регресії метод перехресної валідації "відхід один-один" (LOOCV) є "асимптотично несуперечливим". Простий англійською мовою, як правило, вибирають моделі із занадто великою кількістю змінних. У симуляційному дослідженні Шао показує, що навіть за 40 спостережень, LOOCV може бути меншим, ніж інші методи перехресної перевірки.

Ця стаття є дещо суперечливою і дещо ігнорованою (через 10 років після її публікації мої колеги з хіміометрії ніколи про неї не чули і з радістю використовували LOOCV для варіативного вибору ...). Існує також переконання (я винен у цьому), що його результати дещо виходять за рамки початкової обмеженої сфери.

Тоді питання: наскільки ці результати поширюються? Чи застосовні вони до наступних проблем?

  1. Варіабельний вибір для логістичної регресії / GLM?
  2. Варіабельний вибір для класифікації Fisher LDA?
  3. Змінний вибір за допомогою SVM з кінцевим (або нескінченним) простором ядра?
  4. Порівняння моделей у класифікації, скажімо, SVM з використанням різних ядер?
  5. Порівняння моделей з лінійною регресією, скажімо, порівняння MLR з Ridge Regression?
  6. тощо.

У книгах з хіміометрії повинно бути щось; це робить і єдиний чоловік, якого я знаю, що використовує LOO.

Відповіді:


14

Вам потрібно вказати ціль моделі, перш ніж ви зможете сказати, чи застосовуються результати Шао. Наприклад, якщо метою є прогнозування, то LOOCV має сенс, і непослідовність вибору змінної не є проблемою. З іншого боку, якщо метою є виявлення важливих змінних та пояснення, як вони впливають на змінну відповіді, результати Шао, очевидно, важливі, і LOOCV не є підходящим.

AIC асимптотично LOOCV, а BIC асимптотично еквівалентний CV- виходу з виходу- де --- результат BIC лише для лінійних моделей. Таким чином, BIC дає послідовний вибір моделі. Тому короткий підсумок результату Шао полягає в тому, що AIC корисний для прогнозування, але BIC корисний для пояснення.v = n [ 1 - 1 / ( log ( n ) - 1 ) ]vv=n[11/(log(n)1)]


1
Я вважаю, що Шао показав, що К-кратне резюме суперечливе, якщо закріплено, поки росте. нкн
shabbychef

1
BIC має k зростає з n.
Роб Хайндман

1
Я просто мовчки нагадаю, що * IC <--> * CV-кореспонденція з паперу Shao працює лише для лінійних моделей, а BIC еквівалентний лише CV-кратному CV з певним k.

Власне, я вважаю, що Шао показує, що CV невідповідний, якщо тільки як , де - кількість зразків у тестовому наборі. Таким чином, кратне резюме завжди є непостійним для варіабельного вибору. Я неправильно зрозумів? Під кратним CV я маю на увазі поділ вибірки на групи та навчання на з них, і тестування на 1 з них, потім повторення разів. Тоді для -кратне резюме, яке ніколи не наближається до 1.n inf n v k k k k - 1 k n v / n = 1 / k kнv/н1нінфнvкккк-1кнv/н=1/кк
shabbychef

3
@mbq: Ні - доказ AIC / LOO Stone 1977 не передбачає лінійних моделей. З цієї причини, на відміну від результату Шао, він широко цитується; див., наприклад, глави вибору моделі або в EOSL, або в Довіднику обчислювальної статистики, або в будь-якій хорошій главі / статті про вибір моделі. Це лише трохи більше сторінки, і її варто прочитати, оскільки це дещо акуратно, оскільки він уникає необхідності обчислити інформацію / оцінка Фішера, щоб отримати результат.
АРС

7

Цей документ дещо суперечливий і дещо ігнорований

Насправді це добре розглядається, де йдеться про теорію вибору моделі, хоча вона, безумовно, неправильно трактується. Справжнє питання полягає в тому, наскільки це актуально для практики моделювання в дикій природі. Припустимо, ви виконуєте моделювання для випадків, які ви пропонуєте розслідувати та визначити, що LOOCV дійсно непослідовний. Єдина причина, яку ви отримаєте, це тому, що ви вже знали "справжню" модель і, отже, могли визначити, що ймовірність відновлення "справжньої" моделі не збігається до 1. Для моделювання в дикій природі, як часто це відповідає дійсності ( що явища описуються лінійними моделями, а "справжня" модель є підмножиною розглянутих)?

Документ Шао, безумовно, цікавий для просування теоретичних рамок. Це навіть дає певну чіткість: якщо "справжня" модель дійсно розглядається, то ми маємо результати послідовності, щоб повісити шапки. Але я не впевнений, наскільки цікавими були б фактичні моделювання для описаних вами випадків. Це багато в чому тому, що більшість книг, таких як EOSL, не так зосереджуються на результатах Шао, а на помилці прогнозування / узагальнення як критерії вибору моделі.

EDIT: Дуже коротка відповідь на ваше запитання: Результати Шао застосовні, коли ви виконуєте оцінку найменших квадратів, квадратичну функцію втрат. Не будь-яка ширша. (Я думаю, що був цікавий документ Ян (2005?), Який досліджував, чи можете ви мати послідовність та ефективність, з негативною відповіддю.)


Я не думаю, що це актуально, чи знаю я справжню модель в дикій природі. Якщо є «справжня» модель, я вважаю за краще метод, який швидше її знайде.
shabbychef

2
@shabbychef: Я не згоден. Але зауважте: "Якщо існує" справжня "модель", і вона розглядається .. як би ви це знали апріорі?
АРС

1
Зауважте також, що мій другий абзац фактично вказує на ваш коментар. Це приємна властивість, але не все зрозуміло, наскільки це застосовано в дикій природі; незважаючи на те, що це в деякому сенсі втішає, воно може помилитися.
АРС

2
@ars - зауважте, що "лінійність" "справжньої" моделі - не єдиний спосіб відновити "справжню" модель з лінійної моделі. Якщо нелінійна складова моделі «справжній» може бути добре змодельована за допомогою шумового терміну (наприклад, нелінійні ефекти, як правило, скасовують один одного), я думаю, що ми можемо розумно назвати лінійну модель «справжньою», я думаю. Це схоже на припущення, що залишок у лінійному ряді Тейлора є незначним.
ймовірністьлогічний

1
Таким чином, ви можете повторно констатувати результати як: якщо існує розумне лінійне наближення до реальності, то BIC / вихід- -out послідовно знайде це наближення. АПК / відпустка-один не завжди знайде це. v
ймовірністьлогічний

6

Я б сказав: скрізь, але я не бачив суворого доказу цього. Інтуїція позаду така, що, роблячи резюме, потрібно дотримуватися баланс між поїздом, достатньо великим, щоб створити розумну модель і перевірити достатньо великий, щоб це було розумним орієнтиром.
Якщо мати справу з тисячами досить однорідних об'єктів, вибір одного з них пов'язаний з ризиком того, що він схожий на інший об'єкт, що залишився в наборі - і тоді результати були б занадто оптимістичними.
З іншого боку, у випадку небагатьох об’єктів не буде істотної різниці між LOO та k-кратною; - це лише і ми з цим нічого не можемо зробити.110/101


Крім доказів, мені цікаво, чи існували, наприклад, імітаційні дослідження будь-якого з п'яти випадків, які я перераховую.
shabbychef

Хочете зробити щось?

2
Я згоден; Мені доведеться навчитися набагато більше R, хоча, щоб поділитися результатами тут, хоча.
shabbychef

1
@shabbychef: коли-небудь це робити? І до речі, якщо ви все ще підраховуєте хіміометріків, які роблять або не використовують резюме для змінного вибору, ви можете порахувати мене на стороні тих, хто відмовляється це робити, бо а) я ще не мав реальних даних набір з достатньою кількістю випадків (зразків), що дозволяють навіть порівняти одну модель, і б) для моїх спектроскопічних даних відповідна інформація зазвичай "розмазується" над великими частинами спектру, тому я віддаю перевагу регуляризації, що не робить жорсткого змінного вибору.
cbeleites підтримує Моніку

1

1) У відповіді @ars згадується Ян (2005), "Чи можна розділити сильні сторони AIC та BIC?" . Вкрай кажучи, здається, що не можна мати критерій вибору моделі для досягнення як послідовності (як правило, вибирати правильну модель, якщо дійсно є правильна модель і вона є серед моделей, що розглядаються) та ефективність (досягти найнижчого середнього середня помилка серед вибраних моделей. Якщо ви, як правило, вибираєте правильну модель в середньому, іноді ви отримуєте трохи-занадто малі моделі ... але, часто не вистачаючи реального передбачувача, ви робите гірше з точки зору MSE, ніж хтось, хто завжди включає декілька помилкових прогнозів.

Отже, як було сказано раніше, якщо ви дбаєте про те, щоб робити добрі прогнози більше, ніж отримувати точно-правильні змінні, добре продовжувати використовувати LOOCV або AIC.

2) Але я також хотів зазначити ще два його документи: Ян (2006) "Порівняння методів навчання для класифікації" та Ян (2007) "Узгодженість перехресної перевірки для порівняння процедур регресії" . Ці документи показують, що вам не потрібно, щоб співвідношення даних тренувань до тестування зменшувалося до 0, якщо ви порівнюєте моделі, які сходяться з меншими темпами, ніж лінійні моделі.

Отже, щоб відповісти на свої первісні питання 1-6 безпосередньо: результати Шао застосовуються при порівнянні лінійних моделей між собою. Що стосується регресії чи класифікації, якщо ви порівнюєте непараметричні моделі, які сходяться з меншою швидкістю (або навіть порівнюють одну лінійну модель з однією непараметричною моделлю), ви можете використовувати більшість даних для навчання та все ще мати резюме, що відповідає вибору моделі. .. але все ж Ян припускає, що LOOCV занадто екстремальний.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.