У мене є деякі питання щодо специфікації та інтерпретації GLMM. 3 питання, безумовно, статистичні, а 2 - конкретніше про Р. Я публікую тут, оскільки, зрештою, я думаю, що це інтерпретація результатів ГЛМ.
На даний момент я намагаюся вписатись в GLMM. Я використовую дані перепису США з Бази даних про поздовжні тракти . Мої спостереження - це уроки перепису. Моя залежна змінна - кількість вільних житлових одиниць, і мене цікавить взаємозв'язок між вакансіями та соціально-економічними змінними. Приклад тут простий, лише з використанням двох фіксованих ефектів: відсоток небілого населення (раса) та середній дохід домогосподарств (клас) плюс їх взаємодія. Я хотів би включити два вкладені випадкові ефекти: тракти протягом десятиліть і десятиліть, тобто (десятиліття / тракт). Я розглядаю ці випадкові, намагаючись контролювати просторову (тобто між урочищами) та часову (тобто між десятиліттями) автокореляцію. Однак мене цікавить десятиліття як фіксований ефект, тому я також включаю його як фіксований фактор.
Оскільки моя незалежна змінна - це негативна змінна кількість цілих чисел, я намагався встановити пуассонні та негативні біноміальні ГЛМ. Я використовую журнал загальної кількості житлових одиниць як компенсацію. Це означає, що коефіцієнти інтерпретуються як вплив на коефіцієнт вакансій, а не загальну кількість вільних будинків.
В даний час я маю результати для пуассона та негативної біноміальної GLMM, оцінені за допомогою glmer та glmer.nb від lme4 . Інтерпретація коефіцієнтів має сенс для мене, виходячи з моїх знань про дані та область дослідження.
Якщо ви хочете, щоб дані та сценарій вони знаходились у моєму Github . Сценарій включає більше описових розслідувань, які я робив перед побудовою моделей.
Ось мої результати:
Модель Пуассона
Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
Family: poisson ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10)
Data: scaled.mydata
AIC BIC logLik deviance df.resid
34520.1 34580.6 -17250.1 34500.1 3132
Scaled residuals:
Min 1Q Median 3Q Max
-2.24211 -0.10799 -0.00722 0.06898 0.68129
Random effects:
Groups Name Variance Std.Dev.
TRTID10:decade (Intercept) 0.4635 0.6808
decade (Intercept) 0.0000 0.0000
Number of obs: 3142, groups: TRTID10:decade, 3142; decade, 5
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.612242 0.028904 -124.98 < 2e-16 ***
decade1980 0.302868 0.040351 7.51 6.1e-14 ***
decade1990 1.088176 0.039931 27.25 < 2e-16 ***
decade2000 1.036382 0.039846 26.01 < 2e-16 ***
decade2010 1.345184 0.039485 34.07 < 2e-16 ***
P_NONWHT 0.175207 0.012982 13.50 < 2e-16 ***
a_hinc -0.235266 0.013291 -17.70 < 2e-16 ***
P_NONWHT:a_hinc 0.093417 0.009876 9.46 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980 -0.693
decade1990 -0.727 0.501
decade2000 -0.728 0.502 0.530
decade2010 -0.714 0.511 0.517 0.518
P_NONWHT 0.016 0.007 -0.016 -0.015 0.006
a_hinc -0.023 -0.011 0.023 0.022 -0.009 0.221
P_NONWHT:_h 0.155 0.035 -0.134 -0.129 0.003 0.155 -0.233
convergence code: 0
Model failed to converge with max|grad| = 0.00181132 (tol = 0.001, component 1)
Негативна біноміальна модель
Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
Family: Negative Binomial(25181.5) ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10)
Data: scaled.mydata
AIC BIC logLik deviance df.resid
34522.1 34588.7 -17250.1 34500.1 3131
Scaled residuals:
Min 1Q Median 3Q Max
-2.24213 -0.10816 -0.00724 0.06928 0.68145
Random effects:
Groups Name Variance Std.Dev.
TRTID10:decade (Intercept) 4.635e-01 6.808e-01
decade (Intercept) 1.532e-11 3.914e-06
Number of obs: 3142, groups: TRTID10:decade, 3142; decade, 5
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.612279 0.028946 -124.79 < 2e-16 ***
decade1980 0.302897 0.040392 7.50 6.43e-14 ***
decade1990 1.088211 0.039963 27.23 < 2e-16 ***
decade2000 1.036437 0.039884 25.99 < 2e-16 ***
decade2010 1.345227 0.039518 34.04 < 2e-16 ***
P_NONWHT 0.175216 0.012985 13.49 < 2e-16 ***
a_hinc -0.235274 0.013298 -17.69 < 2e-16 ***
P_NONWHT:a_hinc 0.093417 0.009879 9.46 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980 -0.693
decade1990 -0.728 0.501
decade2000 -0.728 0.502 0.530
decade2010 -0.715 0.512 0.517 0.518
P_NONWHT 0.016 0.007 -0.016 -0.015 0.006
a_hinc -0.023 -0.011 0.023 0.022 -0.009 0.221
P_NONWHT:_h 0.154 0.035 -0.134 -0.129 0.003 0.155 -0.233
Тести Пуассона DHARMa
One-sample Kolmogorov-Smirnov test
data: simulationOutput$scaledResiduals
D = 0.044451, p-value = 8.104e-06
alternative hypothesis: two-sided
DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model
data: simulationOutput
ratioObsExp = 1.3666, p-value = 0.159
alternative hypothesis: more
Негативні біноміальні тести DHARMa
One-sample Kolmogorov-Smirnov test
data: simulationOutput$scaledResiduals
D = 0.04263, p-value = 2.195e-05
alternative hypothesis: two-sided
DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model
data: simulationOutput2
ratioObsExp = 1.376, p-value = 0.174
alternative hypothesis: more
Діаграми DHARMa
Пуассон
Негативний двочлен
Питання статистики
Оскільки я досі розгадую GLMM, я відчуваю себе невпевнено щодо специфікації та інтерпретації. У мене є кілька питань:
Здається, мої дані не підтримують використання моделі Пуассона, і тому мені краще з негативним двочленом. Однак я постійно отримую попередження про те, що мої негативні біноміальні моделі досягають межі своєї ітерації, навіть коли я збільшую максимальну межу. "У theta.ml (Y, mu, weights = object @ resp $ vaights, limit = limit,: обмеження ітерації досягнуто." Це відбувається за допомогою досить кількох різних специфікацій (тобто мініміальних та максимальних моделей як для фіксованих, так і для випадкових ефектів). Я також спробував видалити людей, що переживають мою залежність (грубо, я знаю!), Оскільки перші 1% значень - це дуже пережиті (нижній 99% від 0 до 1012, верхній 1% від 1013-5213). Це не було " я не матиме жодного впливу на ітерації і дуже мало впливає на коефіцієнти. Я тут не включаю ці деталі. Коефіцієнти між Пуассоном та негативним двочленним також досить схожі. Чи є ця відсутність конвергенції проблемою? Чи підходить негативна біноміальна модель? Я також запустив негативну біноміальну модель, використовуючиAllFit і не всі оптимізатори кидають це попередження (bobyqa, Nelder Mead і nlminbw цього не робили).
Дисперсія для мого декадного фіксованого ефекту постійно дуже низька або 0. Я розумію, що це може означати, що модель є надмірною. Виведення десятиліття з фіксованих ефектів збільшує відхилення випадкових ефектів десятиліття до 0,2620 і не має великого впливу на коефіцієнти фіксованого ефекту. Чи є щось не так у тому, щоб залишити його? Я прекрасно трактую це як просто не потрібне пояснення між дисперсією спостереження.
Чи свідчать ці результати, що я повинен спробувати нульові моделі? Здається, DHARMa припускає, що нульова інфляція не може бути проблемою. Якщо ви думаєте, що я повинен спробувати все-таки, дивіться нижче.
R питання
Я був би готовий спробувати нульові завищені моделі, але я не впевнений, який імпотентний пакет вкладений випадкових ефектів для нульового завищеного Пуассона та негативних біноміальних GLMM. Я б використав glmmADMB для порівняння AIC з нульовими завищеними моделями, але він обмежений одним випадковим ефектом, тому не працює для цієї моделі. Я міг би спробувати MCMCglmm, але я не знаю байєсівської статистики, тому це також не привабливо. Будь-які інші варіанти?
Чи можу я відображати коефіцієнти експоненціалу в резюме (модель), чи потрібно це робити поза підсумками, як я це робив тут?
bobyqa
оптимізатор, і він не видав жодного попередження. У чому тоді проблема? Просто використовуйте bobyqa
.
bobyqa
збігається краще, ніж оптимізатор за замовчуванням (і я думаю, я десь прочитав, що він стане дефолтом у майбутніх версіях lme4
). Я не думаю, що вам не потрібно турбуватися про неконвергенцію з оптимізатором за замовчуванням, якщо він конвергується з bobyqa
.
decade
як фіксовану, так і випадкову не має сенсу. Або встановіть його як фіксований і включіть лише(1 | decade:TRTID10)
як випадковий (що еквівалентно(1 | TRTID10)
припущенню, що у васTRTID10
немає однакових рівнів протягом різних десятиліть), або видаліть його з фіксованих ефектів. Маючи лише 4 рівні, вам може бути краще, щоб це було фіксовано: звичайна рекомендація - це відповідати випадковим ефектам, якщо один має 5 рівнів і більше.