Чому інформаційний критерій (не скоригований ) використовується для вибору відповідного порядку відставання у моделі часових рядів?


9

У моделях часових рядів, таких як ARMA-GARCH, для вибору відповідного відставання або порядку моделі використовуються різні інформаційні критерії, такі як AIC, BIC, SIC тощо.

Моє запитання дуже просте, чому ми не використовуємо скоригований для вибору відповідної моделі? Ми можемо вибрати модель, яка призводить до більш високого значення скоригованого . Оскільки як скоригований і інформаційний критерій штрафують за додаткову кількість регресорів у моделі, де колишні штрафують а пізніше штрафують значення ймовірності. R2R2R2R2


У відповідях мені може бути щось не вистачає (нижче), але R-квадрати, а також скореговані R-квадрати підходять для відносно обмеженого класу оцінених OLS моделей, тоді як AIC, BIC та ін. Підходять для більш широкого класу узагальнених лінійних моделі, оцінені, можливо, з ML або варіантом.
Мистер Хантер

Відповіді:


12

Я б стверджував, що принаймні при обговоренні лінійних моделей (на зразок моделей AR), скориговані та AIC не так вже й відрізняються.R2

Розглянемо питання, чи слід включати у Це еквівалентно порівнянню моделі де . Ми говоримо, що - справжня модель, якщо . Зауважте, що . Таким чином, моделі вкладені в гніздо . Процедура вибору моделі - це залежне від даних правило, яке вибирає найбільш правдоподібну з декількох моделей.X2

y=X1(n×K1)β1+X2(n×K2)β2+ϵ
M1:y=X1β1+uM2:y=X1β1+X2β2+u,
E(u|X1,X2)=0M2β20M1M2M^

Ми говоримо є послідовним , якщо M^

limnP(M^=M1|M1)=1limnP(M^=M2|M2)=1

Розглянемо скоригований . Тобто виберіть якщо . Оскільки монотонно зменшується в , ця процедура еквівалентна мінімізації . У свою чергу це еквівалентно мінімізації . Для досить великих останній може бути записаний як деR2M1R¯12>R¯22R¯2s2s2log(s2)n

log(s2)=log(σ^2nnK)=log(σ^2)+log(1+KnK)log(σ^2)+KnKlog(σ^2)+Kn,
σ^2є оцінкою ML дисперсії помилок. Отже, вибір моделі на основі асимптотично еквівалентний вибору моделі з найменшим . Ця процедура непослідовна.R¯2log(σ^2)+K/n

Пропозиція :

limnP(R¯12>R¯22|M1)<1

Доказ : де випливає другий рядок, оскільки статистика є статистикою LR у випадку лінійної регресії, що слідує за асимптотикою нульовий розподіл. QED

P(R¯12>R¯22|M1)P(log(s12)<log(s22)|M1)=P(nlog(s12)<nlog(s22)|M1)P(nlog(σ^12)+K1<nlog(σ^22)+K1+K2|M1)=P(n[log(σ^12)log(σ^22)]<K2|M1)P(χK22<K2)<1,
χK22

Тепер розглянемо критерій Akaike, Таким чином, АПК також торгує зменшенням SSR, що має на увазі додаткові регресори, проти "штрафного строку , "який вказує у зворотному напрямку. Таким чином, виберіть якщо , інше виберіть .

AIC=log(σ^2)+2Kn
M1AIC1<AIC2M2

Видно, що також суперечить продовженню вищезазначеного доказу в третьому рядку з . Відрегульований та таким чином вибирають "велику" модель з позитивною ймовірністю, навіть якщо є справжньою моделлю.AICP(nlog(σ^12)+2K1<nlog(σ^22)+2(K1+K2)|M1)R2AICM2M1

Оскільки штраф за складність в AIC трохи більший, ніж для скоригованого , він може бути менш схильним до перевибору. І він має інші приємні властивості (мінімізуючи розбіжність KL до справжньої моделі, якщо цього немає в наборі розглянутих моделей), які не розглядаються в моєму дописі.R2


1
Чудова відповідь: не надто важкий, але все-таки точний! Якби це було вчора, я б не розміщував свою.
Річард Харді

А як щодо справи ARMA-GARCH? Як би діяв при виборі термінів AMung і GARCH? Radj2
Захарій Блюменфельд

Я б не наважувався сказати. Як ви пояснюєте, навіть не ясно, що означає R2 для пристосування такої моделі.
Крістоф Хенк

5

Штраф в не дає приємних властивостей з точки зору вибору моделі, якою володіє AIC або BIC. Штрафу в достатньо, щоб зробити об'єктивним оцінювачем сукупності коли жоден з регресорів насправді не належить до моделі (відповідно до публікацій блогу Дейва Гілза "У якому сенсі" чи "Налагоджений" R-квадрат безпристрасного? " та " Детальніше про властивості "відрегульованого" коефіцієнта визначення " ); однак не є оптимальним селектором моделі.Radj2Radj2Radj2R2Radj2

(Можуть бути докази суперечливістю: якщо AIC є оптимальним в одному сенсі, а BIC є оптимальним в іншому, а не еквівалентно жодному з них, то не є оптимальним в жодному з них цих двох почуттів.)Radj2Radj2


Скільки параметрів GARCH я повинен додати, перш ніж збільшиться? :) .... Я вважаю, що подібний аргумент може бути зроблений для припущення корельованих помилок (як у моделі МА). І в MA, і в GARCH параметри (не пояснювальні змінні, на які налаштовано ) додаються до моделі. Параметри MA та GARCH не додаються для зменшення , скоріше їх додають, щоб збільшити ймовірність та / або зменшити зважену суму квадратичних залишків, щоб відобразити відсутність термінів помилки iid. R2R2adjSSR
Захарій Блуменфельд

Чи насправді це стосується оригінальної публікації чи моєї відповіді? У будь-якому випадку я згоден з вашими пунктами.
Річард Харді

Я намагався зазначити, що насправді не може використовуватися для вибору компонентів GARCH (і, можливо, і компонентів MA), оскільки він заснований на частці над які є упередженими оцінками відхилення, коли умови помилки не є iid. (це лише конкретний випадок упередженості, про яку ви говорите). У випадку з ARMA-GARCH ви ніколи не вибирали модель з компонентами GARCH, навіть якщо в даних була стохастична мінливість, оскільки вона не збільшує . В основному я згоден з вами, намагаючись навести конкретні приклади. Radj2SSTSSRSSTR2
Захарій Блюменфельд
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.