AIC регресії хребта: ступінь свободи та кількість параметрів


13

Я хочу обчислити AICc моделі регресії хребта. Проблема - кількість параметрів. Для лінійної регресії більшість людей припускають, що кількість параметрів дорівнює кількості оцінених коефіцієнтів плюс сигма (дисперсія похибки).

Якщо мова йде про регресію хребта, я читаю, що слід матриці капелюхів - ступінь свободи (df) - просто використовується як кількість термінів параметрів у формулі AIC (наприклад, тут чи тут ).

Це правильно? Чи можна також просто використовувати df для обчислення AICc? Чи можу я просто додати +1 до df для врахування відхилення помилок?


2
Мені подобається це питання, тому що загальними вхідними даними для AICc є RSS, k і n - але воно, як правило, не вибирає надійних моделей над моделями з найменшою помилкою для однакової кількості параметрів. Якщо ви використовуєте однаковий підхід для кандидатських моделей, і ви підходите до одних і тих же даних, то вибір моделі - це вибір моделі. Мені подобається питання про те, як ви вимірюєте інформаційно-теоретичний варіант, який найкраще відповідає одній і тій же моделі та даним, але використовуючи різні типи придатності, такі як найменш квадратна помилка та втрата Губера.
EngrStudent

3
@EngrStudent, лише невелика примітка: RSS - це особливий випадок із звичайною ймовірністю. Якщо передбачається інше (ненормальне) розповсюдження, AIC не буде містити RSS, а скоріше журнальну ймовірність моделі. Також підходять типи : ви маєте на увазі функції втрат, за допомогою яких оцінюється модель, або функцію втрат, яка використовується для підгонки моделі, чи ще щось інше?
Річард Харді


1
@RichardHardy - Ти маєш рацію щодо нормальної ймовірності! На практиці центральна гранична теорема стає надмірно використаною. У цьому випадку це означало те саме, коли я сказав "функція пристосування", а ви говорите "функція втрати". Я думаю про найменші квадрати з точки зору псевдоперешкод першої та метрики помилок вдруге. Це артефакт "послідовності навчання" в моїх процесах мислення та спілкування.
EngrStudent

1
@EngrStudent, спасибі Також зауважте, що я запропонував два варіанти використання функції втрат: пристосування (емпірична цільова функція, з якої походить оцінювач) та оцінка (теоретична цільова функція, яку ми хочемо оптимізувати).
Річард Харді

Відповіді:


4

АРС та регресія хребта можуть бути сумісні, коли зроблені певні припущення. Однак не існує єдиного методу вибору усадки для регресії хребта, тому немає загального способу застосування АПК до неї. Регресія хребта - це підмножина регуляризації Тихонова . Існує багато критеріїв, які можна застосувати для вибору факторів згладжування для регуляризації Тихонова, наприклад, див. Це . Для використання AIC в цьому контексті є документ, який робить досить конкретні припущення щодо того, як виконати цю регуляризацію, вибір параметрів регуляризації, заснованої на інформаційній складності, для вирішення погано обумовлених зворотних задач . Зокрема, це передбачає

"У статистичних рамках ... вибираючи значення параметра регуляризації α і використовуючи метод максимальної пеніальної ймовірності (MPL) .... Якщо ми розглянемо некорельований гауссовий шум з дисперсією і використовуємо штраф складна норма, див. посилання вище , MPL-рішення є таким самим, як тихоновський (1963) регульований розчин ".σ2p(x)=

Тоді виникає питання, чи варто робити ці припущення? Питання про необхідний ступінь свободи є другорядним у питанні того, чи застосовується АІК та регресія хребта у послідовному контексті. Я б запропонував прочитати посилання для деталей. Я не уникаю цього питання, це просто те, що можна використовувати багато речей у якості цілей хребта, наприклад, можна використовувати коефіцієнт згладжування, що оптимізує сам AIC . Отже, одне добре запитання заслуговує іншого: "Навіщо турбуватися з AIC в контексті хребта?" У деяких контекстах регресії хребта важко зрозуміти, наскільки AIC може бути актуальним. Так , наприклад, гребінь регресія була застосована для того , щоб мінімізувати відносне поширення помилок в , тобто, хвb[SD(b)b] розподілу гамми (GD), заданого

GD(t;a,b)=1tebt(bt)aΓ(a);t0,

відповідно до цього документу . Зокрема, ця трудність виникає тому , що в цій роботі, тобто, по суті, Суб'єктивна U NDER на Час C Urve (ППК) , який оптимізований, а не максимальної правдоподібності (ML) в благості між вимірюваними зразками часу. Зрозуміло, що це робиться тому, що AUC є неправомірним інтегралом, і, в іншому випадку, наприклад, використовуючи ML, гамма-розподіл придатний не матиме надійності. Таким чином, для цього конкретного застосування максимальна ймовірність, таким чином, AIC, насправді не має значення. (Кажуть, що AIC використовується для прогнозування, а BIC для корисності придатності. Однак, прогнозування та корисність придатності лише доволі опосередковано пов'язані з надійною мірою AUC.)[0,)[t1,tn]

Що стосується відповіді на запитання , то в першому посиланні в тексті запитання йдеться про те, що "Основна суть полягає в тому, що є функцією, що спадає [ Sic , коефіцієнт згладжування] з [ Sic , ефективне число параметрів див. матрицю капелюшкової матриці нижче] в і в . " Що означає, що дорівнює кількості параметрів мінус кількості оцінених величин, коли не відбувається згладжування, яке також є, коли регресія така ж, як звичайні найменші квадрати, і зменшується до ніdfλdf=pλ=0df=0λ=dfdf оскільки коефіцієнт згладжування збільшується до . Зауважте, що для нескінченного згладжування пристосування - це плоска лінія незалежно від того, яка функція щільності підходить. Нарешті, що точна кількість є функцією.df

"Можна показати, що ), де { } є власними значеннями Цікаво, що ця сама посилання визначає як слід матриці капелюха, див. def .dfridge=(λi/(λi+λλiXTXdf

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.