AIC або p-значення: який вибрати для вибору моделі?


22

Я абсолютно нова у цій справі, але не знаю, яку модель вибрати.

  1. Я зробив поетапну регресію вперед, вибравши кожну змінну на основі найнижчого AIC. Я придумав 3 моделі, в яких я не впевнений, яка «найкраща».

    Model 1: Var1 (p=0.03) AIC=14.978
    Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
    Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
    

    Я схильний переходити з Модель №3, тому що вона має найнижчий AIC (я чув негативне значення нормально), а значення p все ще досить низькі.

    Я провів 8 змінних як предикторів Хетчлінг Масса і виявив, що ці три змінні є найкращими прогнокторами.

  2. Наступним кроком я вибираю модель 2, оскільки, хоча AIC був трохи більшим, значення p були все меншими. Чи згодні ви, що це найкраще?

    Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
    Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
    Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905
    

Спасибі!


Не могли б ви сказати нам різницю між (1) та (2)? Очевидно, що щось змінилося, тому що модель 3 в (1) і модель 2 в (2) номінально однакові, але значення p і AIC відрізняються.
whuber

2
Це питання було повторно опубліковано два рази, а це означає, що ми повинні закрити їх не лише, але і відповідні відповіді, які вам уже були надані. Чи можете ви зареєструвати свій обліковий запис (див. FAQ ) та звернути увагу на політику розміщення в StackExchange? Спасибі.
chl

@whuber, боюся, я не розумію твого питання в повній мірі. Це, мабуть, моя відсутність статистичного розуміння. Але спробувати уточнити. Модель 1 має 4 змінні, модель 2 має 3 змінні, а модель 3 - дві змінні. Змінні знаходяться в одному порядку в кожній моделі (означає змінну один = temp у кожній моделі). Я думаю, що @GaBorgulya та @djma чудово відповіли на моє запитання. Змінна 4 IS корелює зі змінною 3. AH-HA! Має сенс. дякую одлс!
MEL

Я перетворив вашу відповідь на вищезазначений коментар. Якщо ви вважаєте, що один із поточних відповідей вам допоміг або відповів на ваше запитання, не забудьте прийняти його, як ласкаво нагадав @richiemorrisroe. До речі, приємно бачити, що ви зареєстрували свій рахунок.
чл

Відповіді:


23

AIC - це міра корисності, яка сприяє зменшенню залишкової помилки в моделі, але карає за включення подальших прогнозів і допомагає уникнути перевиконання. У вашому другому наборі моделей модель 1 (та, яка має найнижчий AIC), може найкраще працювати при прогнозуванні поза вашим набором даних. Можливе пояснення того, чому додавання Var4 до моделі 2 призводить до зниження AIC, але більш високих значень p, полягає в тому, що Var4 дещо корелює з Var1, 2 та 3. Інтерпретація моделі 2 таким чином простіша.


31

Перегляд окремих p-значень може ввести в оману. Якщо у вас є змінні, які є колінеарними (мають високу кореляцію), ви отримаєте великі p-значення. Це не означає, що змінні є марними.

Як швидке правило, вибір моделі за критеріями AIC краще, ніж перегляд p-значень.

Однією з причин не можна вибрати модель з найнижчим AIC - коли величина співвідношення змінної та точки даних велика.

Зауважте, що вибір моделі та точність прогнозування є дещо чіткими проблемами. Якщо ваша мета - отримати точні прогнози, я б запропонував перехресно перевірити вашу модель, відокремивши ваші дані в навчальному і тестовому наборі.

Документ про вибір змін: Стохастичні поетапні ансамблі для варіативного вибору


4
Якщо ваша мета - точність прогнозування, ви хочете використовувати AIC (оскільки це мінімізує очікуване розбіжність KL між пристосованою моделлю і правдою). Якщо ви хочете послідовної процедури вибору моделі (фіксований p, зростаючий n), ви можете використовувати, скажімо, BIC. Використання p-значень у поступовій регресії для вибору гіпотез однозначно не рекомендується.
emakalic

8
0,154|т|>журнал(N)

-3

AIC мотивується оцінкою помилки узагальнення (як CP, Маллоу, BIC, ...). Якщо ви хочете модель для прогнозів, краще скористайтеся одним із цих критеріїв. Якщо ви хочете, щоб ваша модель пояснила явище, використовуйте значення p.

Також дивіться тут .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.