Вибір сплайну df в загальній задачі про модель Пуассона


9

Я вкладав деякі дані часових рядів за допомогою загальної моделі добавок Пуассона за допомогою SAS PROC GAM. Взагалі кажучи, у мене вбудована узагальнена процедура перехресної перевірки генерує принаймні гідну "вихідну точку" для мого єдиного сплайна, що є нелінійною функцією часу разом з одним параметричним терміном (один я мене насправді цікавить).

Поки що це працює досить плавно, за винятком одного з моїх наборів даних. У цьому наборі даних є 132 спостереження, і GCV пропонує розріз у 128 градусів свободи. Це здається ... неправильним. Дуже неправильно. Що ще важливіше, він теж зовсім не стабільний. Я спробував другий підхід, використовуючи щось на кшталт критеріїв "Зміна оцінки", щоб зупинити додавання ступенів свободи, коли оцінка параметричного терміна перестає змінюватися, бо навіщо продовжувати додавати контроль, якщо нічого не відрізняється?

Проблема в тому, що оцінка зовсім не є стабільною. Я спробував такі ступені свободи, і, як бачите, параметричний термін дико відскакує:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

Я взагалі не маю інтуїції щодо того, що я повинен використовувати у перерахунку на df для цього конкретного біту даних. Будь-які інші ідеї, як вибрати df? Чи слід дивитись на значення сплайну?

Якщо дивитися більше між df = 10 і df = 15, схоже, df = 12 є найближчим до того, що ви можете прийти до оцінки, сформованої 128, і все ще знаходитесь в діапазоні "розумних ступенів свободи". Поряд з лінійним терміном, перехопленням і єдиним параметричним терміном, який відчуває себе досить насиченою моделлю. Чи виправдано просто поїхати з 12?

Як друге оновлення, зміна згладжування з spline(t)на loess(t)призводить до набагато більш добре оцінених df-оцінок - я повинен просто перейти на зменшення згладжування?


Чи є у вашому наборі даних зі 132 спостереженнями пов'язаний термін підрахунку та зміщення, маючи на увазі, що це насправді зважений набір даних із значно більшим, ніж 132 спостереження? Через середнє співвідношення дисперсії в пуассонських РВ великі підрахунки можуть призвести до властивостей "вибору моделі", які є несприятливими через "великий розмір вибірки".
AdamO

Набір даних - це 132 тижні даних, що моделюються як counts = терміни моделі + журнал (людина-час) у якості зміщення. Підрахунок ніколи не надто високий - але є нульова кількість.
Фоміт

Відповіді:


5

Як зазначає @Berk, GCV, як відомо, підкреслює, головним чином, тому що цей критерій слабко карає накладання, що, як правило, призводить до дуже дрібного мінімуму в критерії GCV як функції , параметра гладкості. Оскільки мінімум дуже дрібний, оптимальний показник GCV може виникати в широкому діапазоні оцінок . Крім того, критерій GCV, як функція має тенденцію до декількох мінімумів, що може призвести до нестабільності, яку ви описуєте. Simon Wood (2011) добре показав це на малюнку 1.λλλ

Вуд (2011) також ілюструє, що AICc не надає багато додаткових переваг порівняно з GCV для баз низького та середнього рангу, що використовуються для плавних функцій.

На противагу цьому, вибір гладкості REML (а також ML) більш сильно карає накладність, ніж GCV, і, отже, має набагато більш чітко визначений оптимум. Це призводить до більш стабільних оцінок та значно зниженого ризику підкреслення.λ

Вуд (2011) описує швидкі та стабільні процедури оцінки REML та ML, які, як він показує, покращує порівняно з існуючими підходами REML (ML) з точки зору конвергенції. Ці ідеї доступні в Саймона mgcv пакет для R .

Оскільки Wood (2011) стоїть за платною стіною, я включаю копію подібного зображення (результати AICc тут не показані), знятого з набору слайдів Саймона, доступних на його веб-сайті , про методи вибору плавності {PDF}. Малюнок із слайду 10 показаний нижче

введіть тут опис зображення

Два ряди відображають модельовані дані там, де є сильний (верхній) або немає (нижній) сигнал відповідно. Найбільш ліві панелі показують реалізацію кожної моделі. На решті панелей показано, як змінюються критерії GCV (середній стовпчик) та REML залежно від функції для 10 наборів даних, кожен з яких моделюється з реальної моделі. У разі верхнього ряду зауважте, наскільки плоский GCV зліва від оптимуму. Діаграми килимів на цих панелях показують оптимальне для кожної з 10 реалізацій. Критерій REML має значно виражений оптимум та меншу дисперсію обраних значень .λλλ

Отже, я б запропонував підхід, який обстоював Саймон Вуд для свого пакету mgcv , а саме обрати в якості базового виміру щось, що є достатньо великим, щоб включати гнучкість, передбачувану у взаємозв'язку між , але не так великий. Потім підходимо до моделі за допомогою вибору гладкості REML. Якщо вибрана модель ступеня свободи близька до розміру, визначеного спочатку, збільште розмір основи та переобладнайте.y=f(x)+ε

Як згадують @ M.Berk та @BrendenDufault, під час встановлення бази сплайну може знадобитися ступінь суб'єктивності з точки зору вибору відповідного базового розміру, з якого підходитиме GAM. Але вибір гладкості REML виявився досить надійним у моєму досвіді у ряді програм GAM, використовуючи методи Вуда.

Wood, SN (2011) Швидка стабільна обмежена максимальна ймовірність та гранична оцінка ймовірності напівпараметричних узагальнюючих лінійних моделей . Дж. Королівське статистичне товариство B 73 (частина 1), 3--6.


@EpiGrad Ласкаво просимо. Вибачте, що я пропустив запитання в той час; за останній рік-два я боровся з ситуаціями, схожими на вашу, і неодноразово читав статті Саймона Вуда та вибираю їх. Радий, що міг пригадати деякі деталі, щоб допомогти.
Гевін Сімпсон

3

Я думаю, що ваша найкраща ставка лежить поза алгоритмами вирівнювання; розглянемо модель парсингу.

Ви на це натякаєте, але я вважаю, що це має стати вашим головним критерієм відбору. Запитайте себе, скільки «вигинів» здається розумним, виходячи з етіології / причинності моделюваних процесів. Графікуйте встановлені сплайни із plots=components(clm)заявою та візуально оцініть відповідність. Можливо, високі сплайни DF розповідають схожу історію, як низькі сплайни DF, за винятком більш галасливих. У такому випадку виберіть низький показник DF.

Зрештою, моделі GAM призначені для дослідження.

Використовуючи сам варіант gcv , я цікавлюсь його ефективністю в умовах Пуассона, розріджених даних тощо. Можливо, тут належить вивчити симуляцію.


2

Я набрав наступну відповідь і тоді зрозумів, що не маю уявлення, чи застосовується вона до пуассонової регресії, з якою у мене немає досвіду. Можливо, люди можуть відповісти на це деякими коментарями.


Особисто мені подобається порада Б. В. Сільвермена (1985 р.) "Деякі аспекти підходу згладжування сплайну до встановлення непараметричної регресійної кривої (з обговоренням)". (Доступно без передплати тут ): спробуйте діапазон параметрів згладжування та виберіть той, який найбільш візуально приваблює.

Як він також справедливо вказує в тому ж документі, хоча суб'єктивний підхід може бути відданий, все ж є необхідність в автоматичних методах. Однак GCV, як правило, є поганим вибором, оскільки має тенденцію до слабкого розгладження. Див., Наприклад, Hurvich et al (1998) "Вибір параметра згладжування в непараметричній регресії з використанням вдосконаленого критерію інформації Akaike" (Доступний без підписки тут ). У цьому ж документі вони пропонують новий критерій, який може полегшити вашу проблему, виправлений АПК, який включає невелику корекцію розміру вибірки. Ви можете знайти опис AICc у Вікіпедії простіше, ніж цей документ. Стаття у Вікіпедії також містить кілька корисних порад від Burnham & Anderson (тобто використовуйте AICc, а не AIC незалежно від розміру вибірки).

Підсумовуючи, мої пропозиції були б у порядку уподобання:

  1. Виберіть параметр згладжування вручну за допомогою візуальної оцінки
  2. Використовуйте скоректований AIC (AICc), а не GCV
  3. Використовуйте стандартний AIC
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.