Неправильний висновок, коли спостереження не є незалежними


13

З елементарної статистики я дізнався, що для загальної лінійної моделі, щоб умовиводи були дійсними, спостереження повинні бути незалежними. Якщо відбувається кластеризація, незалежність може більше не приводити до недійсного висновку, якщо це не враховується. Один із способів обліку такої кластеризації - це використання змішаних моделей. Я хотів би знайти приклад набору даних, змодельований чи ні, який це наочно демонструє. Я спробував використати один із зразків наборів даних на сайті UCLA для аналізу кластерних даних

> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 740.3981    11.5522  64.092   <2e-16 ***
growth       -0.1027     0.2112  -0.486   0.6271    
emer         -5.4449     0.5395 -10.092   <2e-16 ***
yr_rnd      -51.0757    19.9136  -2.565   0.0108 * 


> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)

Fixed effects:
             Estimate Std. Error t value
(Intercept) 748.21841   12.00168   62.34
growth       -0.09791    0.20285   -0.48
emer         -5.64135    0.56470   -9.99
yr_rnd      -39.62702   18.53256   -2.14

Якщо я чогось не пропускаю, ці результати досить схожі, що я не вважаю, що результат з lm()нього недійсний. Я переглянув кілька інших прикладів (наприклад, 5.2 з Центру багаторівневого моделювання Брістольського університету ) і виявив, що стандартні помилки теж не дуже страшні (мене не цікавлять самі випадкові ефекти від змішаної моделі, але варто зазначити, що ICC із виходу змішаної моделі становить 0,42).

Отже, мої запитання: 1) за яких умов стандартні помилки будуть помітно відрізнятися, коли відбувається кластеризація, і 2) чи може хтось навести приклад такого набору даних (імітований чи ні).


Чи можете ви розширити, що ви маєте на увазі під кластером?
bayerj

@bayerj під кластеризацією, я маю на увазі, коли спостереження, схожі між собою, групуються в межах якоїсь одиниці, наприклад, 10 вимірювань артеріального тиску, зроблених на 50 індивдуаль.
Джо Кінг

Відповіді:


11

Перш за все, ви праві, цей набір даних, можливо, не найкращий для розуміння змішаної моделі. Але давайте розглянемо спочатку, чому

require(foreign)
dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

length(dt$dnum)          # 310
length(unique(dt$dnum))  # 187 
sum(table(dt$dnum)==1)   # 132

Ви бачите, що у вас є 310 спостережень та 187 груп, із яких 132 мають лише одне спостереження. Це не означає, що ми не повинні використовувати багаторівневе моделювання, а просто, що ми не отримаємо дуже різних результатів, як ви заявили.

Мотивація багаторівневого моделювання

Мотивація до використання багаторівневого моделювання починається із самої конструкції, а не лише з результатів проведеного аналізу. Звичайно, найпоширеніший приклад - це багаторазове спостереження від людей, але щоб зробити речі більш екстремальними, щоб легше зрозуміти ситуацію, подумайте, запитуючи людей з різних країн світу про їх доходи. Тож найкращі приклади - це ті, які мають багато гетерогенності, оскільки прийняття однорідних кластерів у результаті дослідження, звичайно, не матиме великої різниці.

Приклад

10010100yx0,5

set.seed(1)
I <- 100
J <- 10
n <- I*J
i <- rep(1:I, each=J)
j <- rep(1:J,I)
x <- rnorm(n,mean=0, sd=1)
beta0  <- 1000
beta1  <- 0.5
sigma2 <- 1
tau2   <- 200
u <- rep(rnorm(I,mean=0,sd=sqrt(tau2)),each=J)
y <- beta0 + beta1*x + u + rnorm(n,mean=0, sd=sqrt(sigma2))

Отже, запускаючи лінійну модель, ви отримуєте

> summary(lm(y~x))

Coefficients:
            Estimate Std. Error  t value Pr(>|t|)    
(Intercept) 999.8255     0.4609 2169.230   <2e-16 ***
x             0.5728     0.4456    1.286    0.199    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 14.57 on 998 degrees of freedom
Multiple R-squared:  0.001653,  Adjusted R-squared:  0.0006528 
F-statistic: 1.653 on 1 and 998 DF,  p-value: 0.1989

і ви робите висновок, що xне має статистичного ефекту в Росії y. Подивіться, наскільки велика стандартна помилка. Але працює модель з випадковим перехопленням

> summary(lmer(y~x + (1|i)))

Random effects:
 Groups   Name        Variance Std.Dev.
 i        (Intercept) 213.062  14.597  
 Residual               1.066   1.032  
Number of obs: 1000, groups:  i, 100

Fixed effects:
            Estimate Std. Error t value
(Intercept) 999.8247     1.4600   684.8
x             0.4997     0.0327    15.3

ви бачите, наскільки змінилася стандартна помилка оцінки. Розглядаючи частину випадкових ефектів, ми бачимо, як мінливість була розкладена - більшість змінних доходів є між країнами, а всередині країн люди мають більше подібних доходів. Простими словами, що тут сталося, це те, що не врахування кластеризації ефекту x"втрачається" (якщо ми можемо використовувати цей термін), але розкладаючи мінливість, ви знайдете те, що вам насправді слід отримати.


+1 Дякую, це чудово. Хоча я впевнений, що я пам’ятаю, що читав кілька разів, що ПЕ зазвичай менші, коли не враховують кластеризацію, тому я все ще дещо плутаюсь - які сценарії, коли лінійна модель поверне набагато занадто малий SE?
Джо Кінг

@JoeKing це справедливо для кластерних надійних SE, а не для багаторівневого моделювання. Це можна побачити і на сторінці в ats.ucla, де ви взяли дані.
Стів

@JoeKing, щоб повністю зрозуміти різницю, дивіться stats.stackexchange.com/questions/8291/…
Стів
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.