AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - Чи можу я їх використовувати взаємозамінно?


47

На с. 34 свого PRNN Брайан Ріплі зауважує, що "AIC був названий Akaike (1974)" інформаційним критерієм ", хоча, як видається, вважається, що A означає Akaike". Дійсно, вводячи статистику AIC, Akaike (1974, с.719) пояснює це

"IC stands for information criterion and A is added so that similar statistics, BIC, DIC
etc may follow".

Розглядаючи цю цитату як передбачення, зроблене в 1974 році, цікаво відзначити, що всього за чотири роки два типи статистики BIC (Байєсська ІС) були запропоновані Akaike (1977, 1978) та Schwarz (1978). Знадобилося Spiegelhalter та ін. (2002) набагато довше, щоб придумати DIC (Deviance IC). Хоча Akaike (1974) не передбачав появи критерію CIC, але було б наївно вірити, що він ніколи не розглядався. Він був запропонований Карлосом К. Родрігесом у 2005 р. (Зауважимо, що Р. Тібширані та К. Найт (Критерій інфляції коваріації) - інша річ.)

Я знав, що EIC (емпіричний ІС) був запропонований людьми з Університету Монаша приблизно в 2003 році. Я щойно відкрив критерій орієнтованої інформації (FIC). Деякі книги відносять Інна Ханнана та Квінн як ГІК, див. Напр., Цю ). Я знаю, що повинен бути GIC (Узагальнений ІС), і я щойно відкрив критерій для інвестування інформації (IIC). Є NIC, TIC та інше.

Я думаю, що я міг би охопити решту алфавіту, тому я не запитую, де зупиняється послідовність AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC, ... або які букви алфавіту мають не використовуються або не використовуються принаймні двічі (наприклад, E в EIC може означати розширений або емпіричний). Моє запитання простіше, і я сподіваюся, більш корисне. Чи можу я використовувати ці статистичні дані взаємозамінно, ігноруючи конкретні припущення, в яких вони були виведені, конкретні ситуації, в яких вони повинні були застосовуватися тощо?

Це питання частково мотивоване Burnham & Anderson (2001), написавши, що:

...the comparison of AIC and BIC model selection ought to be based on their performance 
properties such as mean square error for parameter estimation (includes prediction) and 
confidence interval coverage: tapering effects or not, goodness-of-fit issues, 
derivation of theory is irrelevant as it can be frequentist or Bayes. 

Розділ 7 монографії Hyndman та ін. Про експоненціальне згладжування, як видається, слідкує за порадами BA, коли вивчає, наскільки добре працює п'ять альтернативних ІС (AIC, BIC, AICc, HQIC, LEIC) при виборі моделі, яка найкраще прогнозує (як виміряно) нещодавно запропонованим заходом помилки під назвою MASE) для висновку, що АПК частіше є кращою альтернативою. (HQIC був зареєстрований як найкращий селектор моделі лише один раз.)

Я не впевнений, яка корисна мета дослідницьких вправ, які неявно ставляться до всіх ІСС, як ніби вони отримані для відповіді на одне і те ж питання у рівнозначних наборах припущень. Зокрема, я не впевнений, наскільки корисно дослідити прогнозну ефективність послідовного критерію для визначення порядку авторегресії (що Ханнан і Квін отримали для ергодичних стаціонарних послідовностей), використовуючи його в контексті нестаціонарної експоненціально моделі згладжування, описані та проаналізовані в монографії Hyndman et al. Я чогось тут пропускаю?

Список літератури:

Akaike, H. (1974), Новий погляд на ідентифікацію статистичної моделі, IEEE Transaction on Automatic Control 19 (6), 716-723.

Akaike, H. (1977), Про принцип максимізації ентропії, в PR Krishnah, ed., Applications of statistics , Vol. 27, Амстердам: Північна Голландія, стор 27-41.

Akaike, H. (1978), Байєсівський аналіз мінімальної процедури АПК, Анали Інституту статистичної математики 30 (1), 9-14.

Burnham, KP & Anderson, DR (2001) Інформація Kullback – Leibler як основа для сильного висновку в екологічних дослідженнях, дослідження дикої природи 28, 111-119

Hyndman, RJ, Koehler, AB, Ord, JK & Snyder, RD Прогнозування з експоненціальним згладжуванням: підхід до державного простору. Нью-Йорк: Спрингер, 2008

Ріплі, розпізнавання образів BD та нейронні мережі . Кембридж: Cambridge University Press, 1996

Schwarz, G. (1978), Оцінка розмірності моделі, Annals of Statistics 6 (2), 461-464.

Spiegelhalter, DJ, Best, NG, Carlin, BP та van der Linde, A. (2002), Байєсові заходи складності моделі та т (з обговоренням), Журнал Королівського статистичного товариства. Серія B (Статистична методологія) 64 (4), 583-639.


9
У розмові з Findley та Parzen ( projecteuclid.org/download/pdf_1/euclid.ss/1177010133 ) Akaike виявив, що AIC використовувався помічником у її програмі FORTRAN. Імена змінних, такі як IC за замовчуванням, маються на увазі цілі числа; такий префікс, як A, був достатнім, щоб вказати компілятору, що кількість справжня. Хоча не маючи наміру "Akaike", він зрозумів, що це також означає просто "an". (Між іншим, хоча ця посилання є, як би протиотрутою до однієї невірної історії, вона увічнює неправильну написання Маллоуса як Маллоу.)
Нік Кокс

Це питання змушує задуматися про "алфавітний експериментальний дизайн": doe.soton.ac.uk/elearning/section3.6.jsp
kjetil b halvorsen

Відповіді:


36

Я розумію, що AIC, DIC і WAIC - це все те саме: очікуване відхилення від вибірки, пов'язане з моделлю. Це також те саме, що оцінює перехресна перевірка. У Gelman et al. (2013), вони говорять про це прямо:

Природним способом оцінки помилки прогнозування поза вибіркою є крос-валідація (див. Vehtari і Lampinen, 2002, для байєсівської точки зору), але дослідники завжди шукали альтернативні заходи, оскільки перехресне підтвердження вимагає повторної підгонки моделі і може зіткнутись із розрідженими даними. З практичних причин залишається місце для простих виправлень зміщення, таких як AIC (Akaike, 1973), DIC (Spiegelhalter, Best, Carlin, and van der Linde, 2002, van der Linde, 2005), а останнім часом WAIC (Watanabe, 2010), і все це можна розглядати як наближення до різних версій перехресної валідації (Stone, 1977).

BIC оцінює щось інше, що пов'язано з мінімальною довжиною опису. Гельман та ін. казати:

BIC та його варіанти відрізняються від інших інформаційних критеріїв, що розглядаються тут, мотивовані не оцінкою прогнозного butt, а метою наближення граничної щільності ймовірності даних, p (y), за моделлю, яку можна використовувати для оцінити відносні задні ймовірності в налаштуванні дискретного порівняння моделі.

На жаль, я не знаю нічого про інші перераховані вами інформаційні критерії, на жаль.

Чи можете ви використовувати взаємозамінні інформаційні критерії, схожі на AIC? Думки можуть відрізнятися, але якщо врахувати, що AIC, DIC, WAIC та перехресна перевірка оцінюють одне і те ж, то так, вони більш-менш взаємозамінні. BIC відрізняється, як зазначено вище. Я не знаю про інших.

Чому більше одного?

  • AIC працює добре, коли ви маєте максимальну оцінку ймовірності та плоскі пріори, але насправді нічого не сказати про інші сценарії. Штраф також занадто малий, коли кількість параметрів наближається до кількості точок даних. AICc надмірно виправляє це, що може бути добре чи погано залежно від вашої точки зору.

  • DIC використовує менший штраф, якщо частини моделі сильно обмежені пріорами (наприклад, у деяких багаторівневих моделях, де оцінюються дисперсійні компоненти). Це добре, оскільки сильно обмежені параметри насправді не становлять повної свободи. На жаль, формули, які зазвичай використовуються для ДВЗ, припускають, що задні по суті є гауссовими (тобто, що це добре описано середнім значенням), і тому в деяких ситуаціях можна отримати дивні результати (наприклад, негативні покарання).

  • WAIC використовує всю задню щільність ефективніше, ніж DIC, тому Gelman та ін. віддайте перевагу цьому, хоча в деяких випадках це може бути больовим.

  • Перехресна перевірка не покладається на якусь конкретну формулу, але вона може бути обчислювально забороненою для багатьох моделей.

На мій погляд, рішення про те, який із критеріїв, подібних до AIC, повністю залежить від подібних практичних питань, а не від математичного підтвердження того, що один зробить краще, ніж інший.

Список літератури :

Гельман та ін. Розуміння критеріїв прогнозування інформації для байесівських моделей. Доступно з http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.295.3501&rep=rep1&type=pdf


3
На додаток до посилань Gelman et al. Розуміння критеріїв прогнозування інформації для байесівських моделей бачимо також у нещодавнішому документі Aki Vehtari, Andrew Gelman та Jonah Gabry (2016). Практичне оцінювання байесівської моделі з використанням перехресної валідації "відключення" та "WAIC". У статистиці та обчислювальній техніці, дой: 10.1007 / s11222-016-9696-4. переддрук arXiv arXiv: 1507.04544. arxiv.org/abs/1507.04544 У цьому документі також показано, що для багатьох моделей можна обчислити надійну перехресну перевірку за незначний час.
Aki Vehtari

4

"Взаємозамінне" - занадто сильне слово. Усі вони є критеріями, які прагнуть порівняти моделі та знайти "найкращу" модель, але кожна визначає "найкращу" по-різному і може ідентифікувати різні моделі як "найкращі".


0

"Запропонуйте референдум". Просто голосувати! ;-) Мені сподобався CAIC (Bozdogan, 1987) та BIC виключно з моєї особистої практики, тому що ці критерії дають серйозне покарання за складність, ми отримали більше посидючості, але я завжди відображав список хороших моделей - до дельти 4-6 -8 (замість 2). На етапі дослідження параметрів (оскільки у нас є «добре розтягнення кандидатських моделей»), усереднення ММ (B&A) часто майже нічого не змінюється. Я трохи скептично ставлюсь до класичних AIC та AICc (H&T, популяризованих B&A), оскільки вони часто дають дуже "товстий шар крему". ;-)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.