Інтерпретація значення AIC


9

Типові значення AIC, які я бачив для логістичних моделей, є тисячами, принаймні сотнями. наприклад, на http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ AIC становить 727,39

Хоча завжди кажуть, що AIC слід використовувати лише для порівняння моделей, я хотів зрозуміти, що означає конкретне значення AIC. Відповідно до формули, AIC=2log(L)+2K

Де L = максимальна ймовірність оцінювача MLE, K - кількість параметрів

У наведеному прикладі K = 8

так, з простим арифметичним:

727.9 = -2*log(L)+ 2*8
Hence, 711.39 = -2*log(L)
Hence, log (L)= 711.39/-2 = -355.695
Hence, L = exp(-355.695) = 3.3391E-155

Отже, якщо я розумію правильно, це ймовірність функції, визначеної MLE, що відповідає даних. Це здається справді насправді дуже низьким.

Що я тут пропускаю?


Якщо ми розглянемо це як
pmf(observed data;parameter estimates)
Бьорн

Вибачте, ми отримали відсічення, якщо ми подивимось на це таким чином, то це говорить про те, що при великій кількості записів отримання точно спостережуваних даних було не так імовірним для оцінок параметрів.
Бьорн

Відповіді:


9

Не існує такого поняття, як "типова" чи правильна ймовірність для моделі. Те ж саме з AIC , тобто негативна ймовірність журналу, що застосовується до певних параметрів. Нижнє значення AIC говорить про "кращу" модель, але це відносний показник відповідності моделі. Він використовується для вибору моделі, тобто дозволяє порівнювати різні моделі, оцінені на одному і тому ж наборі даних.

Нагадаємо, GEP Box говорив, що "всі моделі помиляються, але деякі корисні", вам не цікаво знайти модель, яка ідеально підходить до ваших даних, оскільки це неможливо, і така модель у багатьох випадках була б дуже поганою, переоснащеною . Натомість ви шукаєте найкращий, який можете отримати, найкорисніший. Загальна ідея AIC полягає в тому, що модель з меншою кількістю параметрів є кращою, що якимось чином відповідає аргументові бритва Occam , що ми віддаємо перевагу простій моделі над складною.

Ви можете перевірити наступні документи:

Anderson, D., & Burnham, K. (2006). Міфи та непорозуміння з АПК.

Бернхем, КП, та Андерсон, DR (2004). Мультимодель Висновок. Розуміння AIC та BIC у виборі моделі. Соціологічні методи та дослідження, 33 (2), 261-304.

і ті теми:

Яка різниця між "вірогідністю" та "ймовірністю"?

Чи є якась причина віддавати перевагу AIC або BIC перед іншими?



3

AIC дуже споріднений з узагальненим ("псевдо") . Мені подобається констатувати AIC за шкалою ймовірності шкалою, хоча це не традиційно, тобто перезавантажено AIC = df Одним із узагальнених заходів є . Незважаючи на те, що ми все ще не знаємо, наскільки точно повинен бути щоб модель вважалася високодискримінаційною, є, принаймні, нероздільною.R2χ2χ22×R21exp(χ2/n)R2R2


3

Це здається справді насправді дуже низьким. Що я тут пропускаю?

Такі кількості, як АПК, які передбачають використання ймовірності журналу, мають значення лише щодо інших таких кількостей . Пам’ятайте, що функція ймовірності визначається лише до константи масштабування, тому її можна масштабувати вгору або вниз за бажанням. Отже, вірогідність журналу визначається лише до постійної точки розташування, і вона може бути зміщена вгору або вниз за бажанням. Це справедливо і для АПК, оскільки ця кількість - це лише ймовірність журналу, зміщена штрафом за кількістю параметрів. Саме тому кажуть, що AIC слід використовувати лише для порівняння моделей.

У комп'ютерних процедурах функція вірогідності, як правило, визначається безпосередньо від щільності вибірки, не видаляючи зайвих констант, тому в цьому випадку проблема масштабування може не бути фактором. У публікації R Bloggers, на яку ви посилаєтесь, було точок даних, використаних у логістичній регресії. Імовірність журналу з числа, яку ви даєте, є:n=800

^=(727.92×8)/(2)=355.95.

Таким чином, середня ймовірність журналу на точку даних становить , що відповідає значенню ймовірності для однієї точки даних. Це не особливо низько і не повинно бути причиною для будь-якої тривоги.^/n=0.44493750.6408643


0

Ви правильно вказали, що якщо ви підрахували ймовірність, використовуючи AIC, повідомлений R, ви отримаєте смішно низькі ймовірності. Причина полягає в тому, що значення AIC, повідомлене R (називайте його AICrep), не є справжнім AIC (AICtrue). AICrep та AICtrue відрізняються постійною, яка залежить від вимірюваних даних, але яка не залежить від обраної моделі. Тому ймовірність, обчислена назад від AICrep, буде неправильною. Саме відмінності в АПК, коли різні моделі використовуються для встановлення одних і тих же даних, корисні при виборі найкращої моделі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.