Значення "кількості параметрів" в АПК


21

При обчисленні AIC,

AIC=2k2lnL

k означає 'кількість параметрів'. Але що вважається параметром? Так, наприклад, у моделі

y=ax+b

Чи завжди a і b зараховуються як параметри? Що робити, якщо я не переймаюся значенням перехоплення, чи можу я його ігнорувати чи все ще вважається?

А якщо

y=af(c,x)+b

де f - функція c і x, чи нараховую зараз 3 параметри?


9
Це гарне запитання, оскільки є тонкість: - кількість ідентифікованих параметрів, які слід оцінити. Наприклад, хоча в регресійній моделі Y N ( β 0 + β 1 X 1 + β 2 X 2 + β 3 ( X 1 + X 2 ) , σ 2 ) записано п'ять параметрів, проте k = 4 . (Ця модель еквівалентна Y N (kYN(β0+β1X1+β2X2+β3(X1+X2),σ2) k=4 з & alpha ; 1 = β 1 + β 3 і α 2 = & beta ; 2 + & beta ; 3 , який явно потребує тільки чотири параметри).YN(β0+α1X1+α2X2,σ2)α1=β1+β3α2=β2+β3
whuber

3
Суворо, ви підраховуєте всі ідентифіковані, вільні параметри - середні параметри, параметри форми та масштабу, незалежно від того, що має значення (і це має значення для AIC C ), але для AIC це не має ніякого значення, якщо ви опускаєте параметри, загальні для моделей, що порівнюються. Так, наприклад, в регресії слід врахувати параметр дисперсії. Отже, по моєму підрахунку, всі ваші параметри у вашому запитанні є короткими, - але якщо у всіх моделях є саме такий, це не завадить скинути його на AIC. R чітко підраховує параметр дисперсії при обчисленні AIC в регресійних моделях. C
Glen_b -Встановіть Моніку

@whuber Чому цей відмінний коментар не розміщується як відповідь? :)
Олексій

Дякую, @Alexis. Я розмістив цю думку як коментар, оскільки ідея адекватно висвітлена у відповіді П Шнелла: я хотів би лише наголосити її трохи більше.
whuber

Відповіді:


17

Як зазначалося муген, являє собою кількість оцінених параметрів . Іншими словами, це кількість додаткових кількостей, які потрібно знати, щоб повністю вказати модель. У простій лінійній регресійній моделі y = a x + b можна оцінити a , b або обидва. Незалежно від кількості, яку ви не оціните, ви повинні зафіксувати. Немає "ігнорування" параметра в тому сенсі, що ви його не знаєте і не цікавите. Найпоширенішою моделлю, яка не оцінює і a, і b, є модель без перехоплення, де ми фіксуємо b = 0k

y=ax+b
ababb=0 . Це матиме 1 параметр. Ви могли так само легко виправити або b = 1, якщо у вас є певні причини вважати, що це відображає реальність. (Тонка точка: σa=2b=1σ - це також параметр простої лінійної регресії, але оскільки він є у кожній моделі, ви можете його опустити, не впливаючи на порівняння AIC.)

Якщо ваша модель кількість параметрів залежить від того, чи ви фіксуєте будь-яке з цих значень, і від форми f . Наприклад, якщо ми хочемо оцінити a , b , c і знати, що f ( c , x ) = x c , тоді, коли ми випишемо модель, у нас є y = a x c + b з трьома невідомими параметрами. Якщо ж f

y=af(c,x)+b
fa,b,cf(c,x)=xc
y=axc+b
, тоді у нас є модель y = a c x + b, яка дійсно має лише два параметри: a c і b .f(c,x)=cx
y=acx+b
acb

Важливо, що - це сімейство функцій, індексованих c . Якщо все, що ви знаєте, - це те, що f ( c , x ) є безперервним і це залежить від c і x , то вам не пощастило, оскільки існує безліч безперервних функцій.f(c,x)cf(c,x)cx


2
(+1) Можливо, варто згадати, що в цілому "оцінка" означає "оцінку за максимальною ймовірністю".
Scortchi

f(c,x)ccr2c

2
@SideshowBob: Так - коли ви порівнюєте дві моделі, різниця у максимальній ймовірності журналу є упередженим оцінником різниці очікуваних втрат інформації Kullback-Leibler та строку покарання в AIC приблизно виправляє цю зміщення.
Scortchi

1
@SideshowBob: Я мушу зазначити, що є модифікації AIC для узагальнених оціночних рівнянь тощо - вони використовують максимізовану квазіімовірність і досить складний термін штрафу.
Scortchi

4

AIC=2k2ln(L) де k - кількість параметрів моделі, а L - максимальне значення функції ймовірності для моделі.

(побачити тут )

Як ви бачите, k оцінених у кожній моделі. Якщо ваша модель включає перехоплення (тобто якщо ви обчислите точкову оцінку, дисперсію та довірчий інтервал для перехоплення), вона враховується як параметр. З іншого боку, якщо ви обчислюєте модель без перехоплення, вона не враховується.

k існує, щоб штрафувати моделі з більшою кількістю параметрів.

Я не знаю достатньо обізнаних, щоб відповісти на ваше друге запитання, я залишу його іншому члену громади.


1
λ

1
Так, звичайно.
PA6OTA

1

По-перше, для тих, хто, можливо, не знайомий з AIC: інформаційний критерій Akaike (AIC) - це проста метрика, призначена для порівняння "корисності" моделей.

За інформацією AIC, коли намагаються вибирати між двома різними моделями, що застосовуються до одних і самих змінних входу та відповіді , тобто моделей, розроблених для вирішення однієї і тієї ж проблеми, модель з нижчим AIC вважається "кращою".

k змінних (вхідні функції або стовпці) в моделі. Чим складніша модель (чим більше змінних потрібно для оцінки або прогнозування), тим вище AIC. Це гарантує, що серед двох моделей з однаковою силою або точністю прогнозування виграє простіша модель. Це форма бритви Оккама.

cf(c,x)k

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.