Передумови порівняння моделі AIC


26

Які саме передумови необхідно виконати для порівняння моделі AIC з роботою?

Я щойно зіткнувся з цим питанням, коли робив порівняння так:

> uu0 = lm(log(usili) ~ rok)
> uu1 = lm(usili ~ rok)
> AIC(uu0)
[1] 3192.14
> AIC(uu1)
[1] 14277.29

Таким чином я виправдав logперетворення змінної usili. Але я не знаю, чи можу я порівняти моделі AIC, коли, наприклад, залежна змінна інша?

Ідеальна відповідь включала б перелік передумов (математичні припущення).

Відповіді:


29

Ви не можете порівнювати дві моделі, оскільки вони не моделюють однакову змінну (як ви правильно розпізнаєте себе). Тим не менш, AIC повинен працювати, коли порівнювати як вкладені, так і нестеплені моделі.

Лише нагадування перед тим, як ми продовжимо: імовірність гауссового журналу надається

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),

K - структура коваріації вашої моделі,|D|кількість балів у ваших наборах даних,μx

Більш конкретно, AIC обчислюється рівним , де k - кількість фіксованих ефектів у вашій моделі, L - ваша вірогідна функція [1]. Він практично порівнює компроміс між дисперсією ( 2 k ) та зміщенням ( 2 log ( L ) ) у ваших припущеннях щодо моделювання. Як такий у вашому випадку він порівняв би дві різні структури вірогідності журналу, коли мова зайшла про термін зміщення. Це тому, що, обчислюючи вірогідність журналу, ви переглядаєте два терміни: придатний термін, позначається - 12k2log(L)кL2к2журнал(L), а термін пеналізації складності, позначений через-1-12(х-мк)ТК-1(х-мк). Тому ви бачите, що ваш термін придатності абсолютно різний між двома моделями; у першому випадку ви порівнюєте залишки із необробленими даними, а в другому - залишки записаних даних.-12журнал(|К|)

Крім Вікіпедії, AIC також визначається як прирівнювання: |D|журнал(RSS|D|)+2к

Оригінальний документ Akaike [4] насправді досить важко зрозуміти (я думаю). Він заснований на розбіжності KL (різниця між двома розподілами грубо кажучи) і працює на шляху доведення того, як можна наблизити невідомий справжній розподіл даних і порівняти його з розподілом даних, які передбачає ваша модель. Ось чому "менший показник AIC краще" ; ви ближче до приблизного правдивого розподілу своїх даних.

Отже, щоб зібрати все це очевидних речей, які слід пам’ятати при використанні AIC, є три [2,5]:

  1. Ви не можете використовувати його для порівняння моделей різних наборів даних.

  2. Ви повинні використовувати однакові змінні відповіді для всіх кандидатських моделей.

  3. |D|>>к

Вибачте, що пошкоджуєте погані новини для вас, але використання AIC, щоб показати, що ви вибираєте одну залежну змінну над іншою, не є статистично обгрунтованою справою. Перевірте розподіл ваших залишків в обох моделях, якщо зафіксований регістр даних звичайно розподіляє залишки, а випадок "необроблених даних" - ні, ви маєте все обґрунтування, яке вам може знадобитися. Ви також можете перевірити, чи відповідають ваші необроблені дані логічному, це може бути достатньо і для обґрунтування.

Для суворих математичних припущень гра - це розбіжність KL та теорія інформації ...

Ну, і кілька посилань:

  1. http://en.wikipedia.org/wiki/Akaike_information_criterion
  2. Інформаційний критерій Akaike, Shuhua Hu, (презентація с.17-18)
  3. Прикладний багатоваріантний статистичний аналіз, Johnson & Wichern, 6th Ed. (стор. 386-387)
  4. Новий погляд на ідентифікацію статистичної моделі, H. Akaike, IEEE Transaction on Automatic Control 19 (6): 716–723 (1974)
  5. Підручник з вибору моделі № 1: інформаційний критерій Akaike, Д. Шмідта та Е. Макаліча (презентація, с.39)

Спасибі! Я не розумів математику, але я отримав основу повідомлення. Однак чи можете ви перерахувати всі необхідні умови для порівняння моделі AIC? Просто, щоб бути впевненим, я наступного разу не помиляюся. Я піду перевірити їх по черзі.
Цікаво

1
|D|pL(θ)θp(х|θ)
usεr11852 повідомляє Відновити Моніку

1
дякую за додавання до відповіді списку цих 3 припущень! Це те, що мені було потрібно.
Цікаво

1
Переглядаючи свою відповідь ще раз: ваш пункт 1. "Ви не можете використовувати її для порівняння моделей різних наборів даних" . Що ви маєте на увазі під набором даних? Що робити, якщо я зміню набір залежних змінних? Я гадаю, що в такому випадку АПК має бути все-таки порівнянним? Чи можете ви оновити відповідь, щоб уточнити це?
Цікаво

1
RSSмкх

11

uu0iуi-12iжурнал(уi)uu0AIC (uu0)+2*sum (log (usili))AIC (uu1)


Я не розумію, за чим ви слідуєте зі своєю спробою "виправити" AIC якось і що ви насправді отримали (як інтерпретувати свій результат). У будь-якому випадку, не зациклюйтеся на цьому, не має значення, тому що моє запитання стосувалося чогось зовсім іншого: які загальні передумови для того, щоб АПК (фактична, не виправлена) була достовірно порівняною. Не концентруйтесь на цьому конкретному прикладі, це лише приклад загальної речі.
Цікаво

1
-2журнал(p(у|θ))х=г(у)х=лог(у)AIC()
ймовірністьлогічний

@probabilityislogic: Чи є у вас якісь академічні посилання на вашу пропозицію (AIC (uu0) + 2 * sum (log (usili))), щоб я міг їх навести в академічних працях? Спасибі.
KuJ

3

Взято з Akaike 1978 року

Цей уривок з Akaike 1978 надає посилання на підтримку рішення від @probabilityislogic.

Akaike, H. 1978. Про вірогідність моделі часових рядів. Журнал Королівського статистичного товариства. Серія D (Статистик) 27: 217-235.


1
Вибачте, я не розумію, що таке "перетворення змінної" і як це пов'язано з моїм запитанням. Будь ласка, поясніть, дякую
Цікаво
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.