Вказівки AIC при виборі моделі


32

Я, як правило, використовую BIC, оскільки я розумію, що він оцінює парність сильніше, ніж AIC. Однак я вирішив зараз використовувати більш комплексний підхід і хотів би також використовувати AIC. Я знаю, що Raftery (1995) представив приємні вказівки щодо відмінностей BIC: 0-2 є слабким, 2-4 - позитивним доказом того, що одна модель є кращою тощо.

Я дивився в підручники, і вони здаються дивними на AIC (схоже, що більша різниця слабка, а менша різниця в AIC означає, що одна модель краща). Це суперечить тому, що я знаю, що мене вчили. Я розумію, що ви хочете знизити АПК.

Хтось знає, чи поширюються вказівки Рафті на АПК, або де я можу навести деякі рекомендації щодо «міцності доказів» для однієї моделі проти іншої?

І так, обмеження не є великими (я їх вважаю дратівливими), але вони корисні при порівнянні різних видів доказів.


1
Це (pdf) , документ Raftery, про який ви посилаєтесь?
gung - Відновіть Моніку

4
Читачі тут можуть зацікавитись прочитати наступну відмінну резюме CV: Чи є якісь причини віддавати перевагу AIC або BIC над іншими?
gung - Відновіть Моніку

1
На які підручники ви посилаєтесь, говорячи: " Я дивився в підручниках, і вони здаються дивними на AIC (схоже, що більша різниця слабка, а менша різниця в AIC означає, що одна модель краща) " --- і що вони насправді сказати?
Glen_b -Встановіть Моніку

1
Ваш другий пункт незрозумілий. Ви, мабуть, маєте на увазі це: Хоча великі відмінності говорять про те, що модель з меншими значеннями є кращою, менші відмінності важко оцінити. Більше того, статистики ще погоджуються, які відмінності є "малими" чи "великими" - Зінгер та Віллет (2003, с.122)
сплячий

1
Щодо третього пункту, якщо ви хочете прийняти категорії доказової сили, висунуті Джеффрісом (1961, стор. 432), я можу дати вам повне посилання.
Зимує

Відповіді:


23

AIC та BIC дотримуються однакової інтерпретації з точки зору порівняння моделі. Тобто, чим більша різниця або в AIC, або в BIC свідчить про більш сильні докази однієї моделі над іншою (чим нижча, тим краще). Просто AIC не карає кількість параметрів так сильно, як BIC. Існує також корекція AIC (AICc), яка використовується для менших розмірів вибірки. Більше інформації про порівняння AIC / BIC можна знайти тут .


5
+1. Просто додати / уточнити: AIC (і AICc) використовує KL-дивергенцію. Тому саме тому, що AIC відображає "додаткову" інформацію, чим менше, тим краще. Іншими словами, як розмір вибірки , модель з мінімальним балом AIC матиме найменшу розбіжність Куллбека-Лейблера і, отже, буде моделлю, найближчою до "справжньої" моделі. N
usεr11852 повідомляє Відновити Моніку

28

Ви говорите про дві різні речі, і ви їх змішуєте. У першому випадку у вас є дві моделі (1 і 2), і ви отримали їх AIC як і A I C 2 . Якщо ви хочете порівняти ці дві моделі на основі їх AIC, тоді модель з нижчим AIC була б кращою, тобто якщо A I C 1 < A I C,AIC1AIC2 то ви підбираєте модель 1 і навпаки. У 2му випадку,вас є набір моделейкандидатівтаких як моделі ( 1 , 2 , . . . , П )AIC1<AIC2
(1,2,...,n)і для кожної моделі ви обчислюєте різниці AIC як , де A I I C m i n - мінімум AIC серед всі моделі. Тепер модель з Δ i > 10 не підтримує і може бути відхилена від подальшого розгляду, як пояснено у виборі моделі та мультимодельному висновку: практичний інформаційно-теоретичний підхідΔi=AICiAICmin - AIC для i- ї моделі, а A - Кеннет П. Бернхем, Девід Р. Андерсон, стор. 71. Отже, чим більше Δ i , тим слабшою буде ваша модель. Тут найкраща модель має Δ iAICiiAICminΔi>10ΔiΔiΔmin0.


1
Ага! Це повністю очистило "більший за" біт. Спасибі!
Том Карпентер

7

Я зазвичай ніколи не використовую AIC або BIC об'єктивно для опису адекватного підходу до моделі. Я б використовувати ці мікросхеми для порівняння відносного прилягання двох моделей прогнозування. Що стосується того, чи стосується AIC "2" або "4", це абсолютно контекстуально. Якщо ви хочете зрозуміти, як «гарна» модель підходить, ви завжди можете (слід) використовувати моделювання. Ваше розуміння АПК правильно. AIC отримує позитивний внесок від параметрів та негативний внесок від ймовірності. Те, що ви намагаєтеся зробити, це збільшити ймовірність, не завантажуючи свою модель з купою параметрів. Отже, моя думка, що лопнула міхур, полягає в тому, що відключення для АПК не є корисним поза контекстом.


Що робити, якщо ваші моделі не дозволяють моделювати?
Стат

6
Тут-тут! Як це можливо? Можна завантажувати світ.
АдамО

Бог удачі з цим ... імітувати світ хаха
Стат

2
@Stat Я дуже серйозно кажу, що не можу уявити ситуацію, в якій неможливо було б імітувати дані з моделі. Як мінімум, завантаження з навчального набору даних кваліфікується як правильний підхід моделювання.
АдамО

Коли завантажувальне завантаження є важким перехресним підтвердженням або навіть простим джеккніфінг, це повинно працювати. Також усереднення моделей забезпечує засіб узгодження інформації з моделей із аналогічними АПК.
N Brouwer

2

Ось пов'язане питання, коли-це-це-доцільно-вибирати-моделі-шляхом мінімізації -а-aic? . Це дає вам загальне уявлення про те, що люди, які не впізнавані в академічному світі, вважають за доцільне написати та які посилання залишити в них як важливі.

Як правило, значення мають різниці між вірогідністю чи АПК, а не їх абсолютними значеннями. Ви пропустили важливе слово "різниця" у своєму "BIC: 0-2 є слабким" у питанні - перевірте таблицю Рафтерді 6 - і дивно, що ніхто не хоче цього виправляти.

Мене самого вчили шукати МАЙС (мінімальну оцінку AIC - як називав Akaike). І що? Ось що одна відома людина написала невідомій дамі:

Dear Miss -- 
I have read about sixteen pages of your manuscript ... I suffered exactly the same 
treatment at the hands of my teachers who disliked me for my independence and passed 
over me when they wanted assistants ... keep your manuscript for your sons and
daughters, in order that they may derive consolation from it and not give a damn for
what their teachers tell them or think of them. ... There is too much education
altogether.

Мої вчителі ніколи не чули про документи з титулами на кшталт "Тест, чи значно відрізняються два АПК", і я навіть не можу згадати, як вони коли-небудь називали АПК статистикою, яка мала б розподіл вибірки та інші властивості. Мене вчили, що AIC - це критерій, який потрібно мінімізувати, якщо можливо, в деяких автоматичних формах.

Ще одне важливе питання, яке, на мою думку, було висловлене тут кілька років тому IrishStat (з пам’яті, тому вибачтесь, якщо я помиляюсь, коли я не зміг знайти цю відповідь) - це те, що AIC, BIC та інші критерії були отримані для різних цілей і за різних умов (припущень), тому ви часто не можете використовувати їх взаємозамінно, якщо, скажімо, ваша мета, прогнозуйте. Ви не можете просто віддати перевагу чомусь невідповідному.

Мої джерела показують, що я використав цитату до Бернхема та Андерсона (2002, стор. 70), щоб написати, що дельта (відмінності AIC) у межах 0-2 має суттєву підтримку; дельта в межах 4-7, значно менша підтримка, а дельта більше 10, по суті, немає підтримки. Також я писав, що "автори також обговорили умови, за яких ці вказівки можуть бути корисними". Книга цитується у відповіді Стата, яку я визнав найбільш актуальною.


0

Щодо інформаційних критеріїв, ось що говорить SAS :

"Зауважте, що такі інформаційні критерії, як Akaike (AIC), Schwarz's (SC, BIC) та QIC, можуть використовуватися для порівняння конкуруючих нестепових моделей, але не забезпечують тесту порівняння. Отже, вони не можуть вказати, чи є одна модель суттєво краще ніж інший. GENMOD, LOGISTIC, GLIMMIX, MIXED та інші процедури забезпечують заходи щодо інформаційних критеріїв ".

Існує дві порівняльні процедури тестування моделі: а) тест Вуонга і б) непараметричний тест Кларка. Докладніше див. У цьому документі .


Мені здається, що математичні позначення, використані в цитованому "документі" (тобто презентації), незрозумілі без коментарів. Зокрема, що символізує лінія тире? Наслідки?
Адам Ріцковський
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.