Коли доцільно вибирати моделі, мінімізуючи AIC?


12

Принаймні встановлено, принаймні серед статистиків деякого вищого калібру, що моделі зі значеннями статистики AIC у межах певного порогового значення мінімального значення слід вважати відповідними як модель мінімізації статистики AIC. Наприклад, у [1, с.221] знаходимо

Тоді найкращими будуть вважатися моделі з невеликим GCV або AIC. Звичайно, не слід просто сліпо мінімізувати GCV або AIC. Швидше за все, всі моделі з досить малими значеннями GCV або AIC слід вважати потенційно відповідними та оцінювати відповідно до їх простоти та наукової актуальності.

Аналогічно в [2, с.144] маємо

Було запропоновано (Duong, 1984), що моделі зі значеннями AIC в межах c мінімального значення слід вважати конкурентоспроможними (з c = 2 - типовим значенням). Тоді вибір серед конкурентних моделей може ґрунтуватися на таких факторах, як білість залишків (Розділ 5.3) та простота моделі.

Список літератури:

  1. Ruppert, D .; Паличка, народні депутати та Керрол, напівпараметрична регресія RJ , Кембриджський університет-прес, 2003
  2. Brockwell, PJ & Davis, RA Вступ до часових рядів та прогнозування , John Wiley & Sons, 1996

Отже, з огляду на вищесказане, якій із двох наведених нижче моделей слід віддати перевагу?

print( lh300 <- arima(lh, order=c(3,0,0)) )
# ... sigma^2 estimated as 0.1787:  log likelihood = -27.09,  aic = 64.18
print( lh100 <- arima(lh, order=c(1,0,0)) )
# ... sigma^2 estimated as 0.1975:  log likelihood = -29.38,  aic = 64.76

Більш загально, коли доцільно вибирати моделі шляхом сліпого мінімізації АПК або пов'язаної статистики?


Ви не надали AIC жодній моделі.
Пітер Флом

Я показав, як це дістати з Р.
Зимує

1
Проблеми +1 у моделях ARIMA, зазначені нижче. Але в іншому випадку: "Спрощення прогностичної моделі: імітаційне дослідження на основі клінічних даних". Ambler 2002 - це найбільш цитується посилання на це.
Чарльз

Відповіді:


4

Перефразовуючи лекції Cosma Shalizi з правдивості про лінійну регресію , ви ніколи не обираєте модель тільки тому, що сталося звести до мінімуму статистику, як AIC , для

Every time someone solely uses an AIC statistic for model selection, an angel loses its
wings. Every time someone thoughtlessly minimises it, an angel not only loses its wings,
but is cast out of Heaven and falls in most extreme agony into the everlasting fire.

1
Як сказав один відомий єврей: "Уява краще, ніж знання" :)
Зимує

І, як сказав один відомий неєврей, "Ви можете багато чого побачити, дивлячись" (Йогі Берра).
Пітер Флом

І те, що ми бачимо, звичайно, залежить головним чином від того, що ми шукаємо. --John Lubbock
Hibernating

12

Я б сказав, що часто доцільно використовувати AIC у виборі моделі, але рідко правильно використовувати його як єдину основу для вибору моделі. Ми також повинні використовувати предметні знання.

У вашому конкретному випадку ви порівнюєте модель з AR 3-го порядку проти однієї з AR 1-го порядку. На додаток до AIC (або чогось подібного) я би розглядав схеми автокореляції та часткової автокореляції. Я також розглядав би, що означатиме модель 3-го порядку . Чи є сенс? Чи додає це до предметних знань? (Або, якщо вас цікавить виключно прогнозування, чи допомагає це передбачити?)

Загалом, іноді буває так, що цікавим є пошук дуже невеликого розміру ефекту.


Ви щойно сказали, що жоден хороший алгоритм вибору моделі аріма не повинен базуватися лише на критерії AIC (або подібному)?
Зимує

Так, я це сказав.
Пітер Флом

І в цьому кінці я почув це як прощання auto.arima. Моїм уподобанням було б дотримуватися підходу, викладеного в главі 6 Бісгаарда, С. і Кулахчі, М. Аналіз часових рядів та прогнозування на прикладі John Wiley & Sons, Inc., 2011 р., Ще точніше в розділі 6.5 ФУНКЦІЯ ВІДПОВІДНОСТІ ІМПУЛЬСУ ДО ДОСЛІДЖЕННЯ РІЗНОМИКИ В МОДЕЛЯХ
Зимує

1
@Hibernating: Автори auto.arima, Hyndman & Khandakar (2008) , кажуть: - "Автоматичні прогнози великої кількості одновимірних часових рядів часто потрібні в бізнесі. Зазвичай існує більше тисячі ліній продуктів, які потребують прогнозування щонайменше щомісяця. Навіть коли потрібна менша кількість прогнозів, може бути, що ніхто не буде відповідним чином навчений використовувати моделі часових рядів для їх виготовлення. У цих умовах автоматичний алгоритм прогнозування є важливим інструментом ". Зверніть увагу на ці обставини .
Scortchi

2
Дякую, але я це читав раніше. Навіть якщо ми зараз ігноруємо очевидні проблеми з "авто" частиною, є проблеми з частиною "arima", особливо коли вона розширена, щоб включати сезонні моделі. Сезонні моделі ARIMA жорстоко критикували PJ Harrison, C Chatfield та деякі інші особистості, від яких мені сподобалось вчитися. Я не маю нічого проти автоматичного прогнозування, коли це я абсолютно необхідний і іі) на основі алгоритмів я можу знайти звук - інакше я дотримуюся порад ДР Кокса у своєму коментарі до статті "Дві культури" Лео Бреймана у "Стат Науці" кілька років тому.
Зимує

8

Ви можете думати про AIC як про забезпечення більш розумного (тобто, більшого) значення відсікання. Але вибір моделі на основі значень або будь-якої іншої метрики одночасної змінної загрожує труднощами, що мають всі проблеми вибору ступінчастої змінної. Взагалі кажучи, AIC найкраще працює, якщо використовується для вибору унікального одного параметра (наприклад, коефіцієнт усадки) або для порівняння 2 або 3 кандидатних моделей. В іншому випадку, якщо якимось чином встановити весь набір змінних, використовуючи зменшення або зменшення даних, часто це призведе до вищої дискримінації прогнозування. Потворність суперечить прогностичній дискримінації.ПPP


2
Ваше останнє речення цікаве. Пам'ятаю, я читав, що додавання навіть незначних прогнозів до регресу цілком може бути виправданим, якщо кінцевою метою є прогнозування. Я не звертав на це багато уваги, але зараз спробую знайти цю посилання.
Зимує

3
Замість додавання я б сказав, щоб не видаляти . І це не просто прогнозування, але використання оцінок статистичної асоціації для керівництва змінним вибором викликає упередження та недійсні стандартні помилки та межі довіри.
Френк Харрелл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.