Ви не можете порівнювати дві моделі, оскільки вони не моделюють однакову змінну (як ви правильно розпізнаєте себе). Тим не менш, AIC повинен працювати, коли порівнювати як вкладені, так і нестеплені моделі.
Лише нагадування перед тим, як ми продовжимо: імовірність гауссового журналу надається
журнал( L ( θ ) ) = - | Д |2журнал( 2 π) - 12журнал( | К| )- 12( х - мк )ТК−1(x−μ),
K - структура коваріації вашої моделі,|D|кількість балів у ваших наборах даних,μx
Більш конкретно, AIC обчислюється рівним , де k - кількість фіксованих ефектів у вашій моделі, L - ваша вірогідна функція [1]. Він практично порівнює компроміс між дисперсією ( 2 k ) та зміщенням ( 2 log ( L ) ) у ваших припущеннях щодо моделювання. Як такий у вашому випадку він порівняв би дві різні структури вірогідності журналу, коли мова зайшла про термін зміщення. Це тому, що, обчислюючи вірогідність журналу, ви переглядаєте два терміни: придатний термін, позначається - 12k−2log(L)кL2 к2 колоди( L ), а термін пеналізації складності, позначений через-1- 12( х - мк )ТК- 1( х - мк ). Тому ви бачите, що ваш термін придатності абсолютно різний між двома моделями; у першому випадку ви порівнюєте залишки із необробленими даними, а в другому - залишки записаних даних.- 12журнал( | К| )
Крім Вікіпедії, AIC також визначається як прирівнювання: | Д | журнал( R SS| Д |) +2к
Оригінальний документ Akaike [4] насправді досить важко зрозуміти (я думаю). Він заснований на розбіжності KL (різниця між двома розподілами грубо кажучи) і працює на шляху доведення того, як можна наблизити невідомий справжній розподіл даних і порівняти його з розподілом даних, які передбачає ваша модель. Ось чому "менший показник AIC краще" ; ви ближче до приблизного правдивого розподілу своїх даних.
Отже, щоб зібрати все це очевидних речей, які слід пам’ятати при використанні AIC, є три [2,5]:
Ви не можете використовувати його для порівняння моделей різних наборів даних.
Ви повинні використовувати однакові змінні відповіді для всіх кандидатських моделей.
| Д | > > До
Вибачте, що пошкоджуєте погані новини для вас, але використання AIC, щоб показати, що ви вибираєте одну залежну змінну над іншою, не є статистично обгрунтованою справою. Перевірте розподіл ваших залишків в обох моделях, якщо зафіксований регістр даних звичайно розподіляє залишки, а випадок "необроблених даних" - ні, ви маєте все обґрунтування, яке вам може знадобитися. Ви також можете перевірити, чи відповідають ваші необроблені дані логічному, це може бути достатньо і для обґрунтування.
Для суворих математичних припущень гра - це розбіжність KL та теорія інформації ...
Ну, і кілька посилань:
- http://en.wikipedia.org/wiki/Akaike_information_criterion
- Інформаційний критерій Akaike, Shuhua Hu, (презентація с.17-18)
- Прикладний багатоваріантний статистичний аналіз, Johnson & Wichern, 6th Ed. (стор. 386-387)
- Новий погляд на ідентифікацію статистичної моделі, H. Akaike, IEEE Transaction on Automatic Control 19 (6): 716–723 (1974)
- Підручник з вибору моделі № 1: інформаційний критерій Akaike, Д. Шмідта та Е. Макаліча (презентація, с.39)