Виправлено проти випадкових ефектів


10

Я нещодавно почав дізнаватися про узагальнені лінійні змішані моделі і використовував R, щоб дослідити, яка різниця може сприймати членство в групі як фіксований, або випадковий ефект. Зокрема, я дивлюся на приклад, про який йдеться тут:

http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm

http://www.ats.ucla.edu/stat/r/dae/melogit.htm

Як викладено в цьому підручнику, ефект Doctor ID помітний, і я очікував, що змішана модель із випадковим перехопленням дасть кращі результати. Однак, порівнюючи значення AIC для двох методів, можна сказати, що ця модель гірша:

> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)

Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, 
data = hdp)

Deviance Residuals: 
Min       1Q   Median       3Q      Max  
-2.5265  -0.6278  -0.2272   0.5492   2.7329  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.560e+01  1.219e+03  -0.013    0.990    
Age         -5.869e-02  5.272e-03 -11.133  < 2e-16 ***
Married1     2.688e-01  6.646e-02   4.044 5.26e-05 ***
IL6         -5.550e-02  1.153e-02  -4.815 1.47e-06 ***
DID2         1.805e+01  1.219e+03   0.015    0.988    
DID3         1.932e+01  1.219e+03   0.016    0.987   

[...]

DID405       1.566e+01  1.219e+03   0.013    0.990    
DID405       1.566e+01  1.219e+03   0.013    0.990    
DID406      -2.885e-01  3.929e+03   0.000    1.000    
DID407       2.012e+01  1.219e+03   0.017    0.987    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 10353  on 8524  degrees of freedom
Residual deviance:  6436  on 8115  degrees of freedom
AIC: 7256

Number of Fisher Scoring iterations: 17


> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m

Generalized linear mixed model fit by the Laplace approximation 
Formula: remission ~ Age + Married + IL6 + (1 | DID) 
Data: hdp 
AIC  BIC logLik deviance
7743 7778  -3867     7733
Random effects:
Groups Name        Variance Std.Dev.
DID    (Intercept) 3.8401   1.9596  
Number of obs: 8525, groups: DID, 407

Fixed effects:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.461438   0.272709   5.359 8.37e-08 ***
Age         -0.055969   0.005038 -11.109  < 2e-16 ***
Married1     0.260065   0.063736   4.080 4.50e-05 ***
IL6         -0.053288   0.011058  -4.819 1.44e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Correlation of Fixed Effects:
         (Intr) Age    Marrd1
Age      -0.898              
Married1  0.070 -0.224       
IL6      -0.162  0.012 -0.033


> extractAIC(GLM) ; extractAIC(GLMM)

[1]  410.000 7255.962
[1]    5.000 7743.188

Таким чином, мої запитання:

(1) Чи доцільно порівнювати значення AIC, передбачені двома функціями? Якщо так, чому модель фіксованого ефекту краще?

(2) Який найкращий спосіб визначити, чи важливі фіксовані чи випадкові наслідки (тобто кількісно визначити, що мінливість, надана лікарем, важливіша, ніж характеристики пацієнта?

Відповіді:


7

Моделі з фіксованими ефектами та моделі випадкових ефектів задають різні запитання даних. Вказання набору змінних фіктивних змін на рівні групи по суті контролює всю незабезпечену неоднорідність на рівні групи в середній відповіді, залишаючи ваші оцінки відображати лише мінливість у межах одиниць. Моделі випадкових ефектів починаються з припущення, що існує метапопуляція (який би не був ефект), і що ваш зразок відображає багато малюнків із цієї сукупності. Отже, замість закріплення результатів навколо неоднорідних перехоплювачів, ваші дані будуть використані для з'ясування параметрів того (зазвичай нормального) розподілу, з якого ваші дані нібито були отримані.

Часто говорять, що моделі фіксованих ефектів корисні для проведення висновків щодо даних, які у вас є, і що моделі випадкових ефектів хороші для спроб провести висновок щодо більшої сукупності, з якої ваші дані є випадковою вибіркою.

Коли я дізнався про моделі з фіксованими ефектами, їх мотивували за допомогою компонентів помилок та даних панелей. Візьміть багаторазові спостереження за даною одиницею та випадкову обробку в часі .t

yit=αi+βTit+ϵit

Ви можете розбити помилку на той компонент терміна помилки, який залежить від часу, і той, який не:

yit=αi+βTit+ei+uit

Тепер відніміть середнє значення з обох сторін:

yity¯i=αiα¯i+β(TitT¯i)+eie¯i+uitu¯it

Речі, які не підписані виходять із рівняння за допомогою основного віднімання - тобто, середнє значення за час таке ж, як у будь-який час, якщо воно ніколи не змінюється. Сюди входить ваш невідмінний компонент терміну помилки. Таким чином, ваші оцінки не обгрунтовані гетерогенністю, інваріантною за часом. t

Це не зовсім підходить для моделі випадкових ефектів - ваші не вкладені змінні не будуть придушені цим перетворенням (перетворення "всередині"). Таким чином, можна зробити висновок про вплив речей, які не змінюються в межах групи. У реальному світі такі речі мають важливе значення. Таким чином, випадкові ефекти хороші для "моделювання даних", тоді як моделі з фіксованими ефектами хороші для наближення до неупереджених оцінок конкретних термінів. За допомогою моделі випадкових ефектів ви не можете заявити, що повністю видалили цей .tei

У цьому прикладі час - це змінна групування. У вашому прикладі це DID. (тобто: узагальнює)


1

1) Доречно зробити порівняння, тільки не з цими двома моделями. Ви хочете порівняти:

GLM <- glm(remission~Age+Married+IL6, data=hdp, family=binomial)

з

GLMM <- glmer(remission~Age+Married+IL6+(1|DID), data=hdp, family=binomial)

і ви можете зробити це за допомогою anova:

anova(GLM, GLMM)

(Не впевнений, що це буде працювати з результатами glmта glmerрезультатами, оскільки вони можуть бути різними об'єктами R. Можливо, вам доведеться використовувати дві функції, що мають порівнянні об'єкти повернення, як-от lmeі gls, або робити anova самостійно.)

Anova зробить тест на коефіцієнт вірогідності, щоб перевірити, чи важливим є додавання ефекту випадкового лікаря. Вам слід розділити це значення p на 2, перш ніж оголосити про значущість, оскільки ви перевіряєте нульову гіпотезу про те, що ефект випадкового лікаря дорівнює 0, а 0 знаходиться на межі простору параметрів для дисперсії (фактичний розподіл, який ви використовуєте в тест - це суміш розподілу та - але я в цій точці біля межі власного незнання).χ02χ12

Для мене найкращою книгою для розуміння процесу побудови вкладених моделей та тестування гіпотез були Західна, Валлійська та Галецька (2007) лінійні змішані моделі: практичний посібник . Вони проходять все покроково.

2) Якщо у вас є кілька спостережень за пацієнтом, ви також додасте випадковий ефект для пацієнта. Потім, щоб перевірити відносну важливість терпіння та лікаря, ви можете подивитися на прогностичні ефекти пацієнта та передбачувані ефекти для лікаря. Терміни випадкових ефектів для кожного визначають кількість розходження між пацієнтами та між лікарями, якщо це питання, яке вас цікавить.

(Хтось, будь ласка, виправте мене, якщо я помиляюся!)


Я не впевнений , що це має сенс мати в DIDякості як фіксований ефект, і випадкового перехоплення у 2 - ї моделі. Більше того, мати його як фіксований ефект у 1-й моделі означає, що вибір b / t цих 2 буде залежати від того, про який спосіб думати про ефект DID, а не про те, чи потрібно його включати. З іншого боку, я помічаю, що у вас є предмет (2); ти мав на увазі десь пункт (1)?
gung - Відновіть Моніку

Ви абсолютно праві; Я йшов від оригінальної формули glm в ОП, яка не повинна була мати DID як фіксованого ефекту на 1-му місці. Тепер вибір полягає в тому, чи поводження з DID як випадковий ефект додасть моделі будь-яке значення.
Крістофер Пойл

1

Моделі дуже різні. Модель glm стосується загального зменшення відхилення (від нульової моделі), коли оцінюються всі ефекти доктораID і призначаються оцінки параметрів. Ви, звичайно, помічаєте, що Вік, Одружений і IL6 мають однакові статистичні дані Уолда у двох моделях, правда? Моє розуміння (не дуже вишукане, я визнаю) полягає в тому, що змішана модель трактує лікарські препарати як фактори неприємності або прошарки, а саме "ефекти", які не можна вважати витягнутими з будь-якого конкретного батьківського розподілу. Я не бачу причин думати, що використання змішаної моделі покращило б ваше розуміння "ефекту лікаря", насправді навпаки.

Якби ваш інтерес був наслідком віку, одруженого або IL6, я б міг уявити, що ви не будете порівнювати АПК за цими двома моделями, а навпаки, за відмінностями в АПК з видаленням цікавих коваріатів в одній структурі моделювання.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.