Вибір оригінальної (?) Моделі з кратним CV


9

Використовуючи ревізію k-кратного для вибору серед регресійних моделей, я зазвичай обчислюю похибку CV окремо для кожної моделі разом із її стандартною помилкою SE, і я вибираю найпростішу модель в межах 1 SE від моделі з найнижчою помилкою CV (1 стандартне правило помилок, див. наприклад тут ). Однак мені нещодавно сказали, що таким чином я завищую мінливість, і що в конкретному випадку вибору між двома моделями A і B я дійсно повинен діяти по-іншому:

  • за кожну складку К довжини NК, обчисліть точкові різниці між прогнозами двох моделей. Потім обчисліть середню квадратичну різницю для складання
    МSDК=i=1NК(у^Аi-у^Бi)2NК
  • середній МSDК поперек складок, як зазвичай, і використовуйте цю помилку різниці CV (разом зі стандартною помилкою) як оцінювач для помилки узагальнення.

Запитання:

  1. Це має для вас сенс? Я знаю, що існують теоретичні причини використання помилки CV як оцінювача помилки узагальнення (я не знаю, які ці причини, але я знаю, що вони існують!). Я не маю уявлення, чи є теоретичні причини, що стоять за використанням цієї помилки CV "різниця".
  2. Я не знаю, чи можна це узагальнити до порівнянь більш ніж двох моделей. Обчислення відмінностей для всіх пар моделей здається ризикованим (багаторазове порівняння?): Що б ви зробили, якби у вас було більше двох моделей?

EDIT: моя формула абсолютно неправильна, тут описана правильна метрика, і це набагато складніше. Ну, я щасливий, що запитав тут, перш ніж сліпо застосувати формулу! Я дякую @Bay за допомогу мені зрозуміти його \ її освітлюючу відповідь. Описаний правильний захід є досить експериментальним, тому я буду дотримуватися свого надійного робочого коня, помилка резюме!

Відповіді:


2

The МSDКє дивним показником помилки узагальнення, оскільки набір утримування навіть не входить у зображення. Все це скаже вам про те, наскільки співвідношення прогнозів моделі між собою, але нічого про те, наскільки добре насправді прогнозує точку даних тесту.

Наприклад, я міг би придумати тупу пару провісників:

у^А(х,θ)=1+х,1θ

у^Б(х,θ): =1+х,1θ2

У цьому випадку налаштування на перехресну перевірку дозволить мені встановити θ має великі можливості, оскільки це призведе до збивання МSDК, але я сумніваюся, ці моделі були б хорошими прогнозами.

Я переглянув посилання, але не побачив вашого МSDКміряти там. Ендрю Гелман - шановний статистик, тому я сумніваюся, що він схвалить щось подібне до вищезгаданого, що явно не відповідає оцінці помилок узагальнення. Його робота та посилання обговорюють перехресну перевірку Leave One Out (LOO), яка як і раніше потребує порівняння з тестовою точкою даних (тобто, утриманою від навчання) як орієнтиром. TheМSDК це суто "внутрішній" показник, який не скаже вам нічого про очікувану помилку тесту (за винятком можливо, що у двох моделей можуть бути подібні помилки ...).


Відповідь на коментар ОП

Формула, представлена ​​у вашому коментарі, вимагає трохи контексту:

  1. Це баєсова міра точності, тому що elpd - очікувана логарифмична точкова прогнозована щільність - досить велика кількість, але в основному це сума очікуваних значень логарифму задньої прогнозної щільності, оціненої в кожній точці даних за деяким попереднім прогнозуванням щільність, яка оцінюється за допомогою перехресної перевірки.
  2. Вищевказаний показник (elpd) обчислюється за допомогою перехресної валідації, що виключається, де прогнозована щільність взята в опущеній точці.
  3. Їх формула (19) робить обчислення стандартної похибки різниці в точності прогнозування (вимірюється за допомогою elpd) між двома моделями. Ідея полягає в тому, що різниця в elpd є асимптотично цілком нормальною, тому стандартна помилка має інфекційне значення (і може бути використана для перевірки, якщо основна різниця дорівнює нулю) або модель A має меншу помилку передбачення, ніж модель B.

Отже, для цього заходу є багато рухомих частин: Вам потрібно запустити алгоритм вибірки MCMC, щоб отримати точки від щільності заднього параметра. Потім вам потрібно інтегрувати його, щоб отримати прогнозну щільність. Тоді потрібно прийняти очікувані значення кожного з них (протягом багатьох розіграшів). Це досить процес, але врешті-решт, він повинен дати корисну стандартну помилку.

Примітка. У третьому повному абзаці нижче рівняння (19) автори заявляють, що потрібно більше досліджень, щоб визначити, чи добре цей підхід є ефективним для порівняння моделі ... так, його ще недостатньо перевірено (високо експериментальне). Таким чином, ви в основному довіряєте корисності цього методу до тих пір, поки наступні дослідження не підтвердять, чи він надійно визначить кращу модель (з точки зору elpd ).


Я розумію, що я (як і мій колега, який вказав мені на папір) нічого з цього не зрозумів. Чи можете ви пояснити мені, що таке термін, який Гельман називає "стандартною помилкою різниці [моделей A & B]",се(елpг^LООА-елpг^LООБ)? Сторінка 18 зв'язаного паперу, абз. 5.2. Це дійсно допоможе, якщо ви можете навести простий приклад, де ви показуєте, як обчислити цей термін. Тут я точно багато чого не розумію.
DeltaIV

@DeltaIV Добре ... Я перегляну згаданий розділ і спробую розпакувати цю формулу для вас.

1
@DeltaIV гаразд, я змінив перегляд. Я розширив свою посаду. Це видається дуже експериментальним (і неперевіреним) методом порівняння двох моделей прогнозування. Я з обережністю використовую його, якщо ви не зможете перевірити його ефективність своїми власними дослідженнями в Монте-Карло (тобто, чи зможе він вибрати більш прогностичну модель, коли знаєш правильну відповідь?).
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.