З елементарної статистики я дізнався, що для загальної лінійної моделі, щоб умовиводи були дійсними, спостереження повинні бути незалежними. Якщо відбувається кластеризація, незалежність може більше не приводити до недійсного висновку, якщо це не враховується. Один із способів обліку такої кластеризації - це використання змішаних моделей. Я хотів би знайти приклад набору даних, змодельований чи ні, який це наочно демонструє. Я спробував використати один із зразків наборів даних на сайті UCLA для аналізу кластерних даних
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
Якщо я чогось не пропускаю, ці результати досить схожі, що я не вважаю, що результат з lm()
нього недійсний. Я переглянув кілька інших прикладів (наприклад, 5.2 з Центру багаторівневого моделювання Брістольського університету ) і виявив, що стандартні помилки теж не дуже страшні (мене не цікавлять самі випадкові ефекти від змішаної моделі, але варто зазначити, що ICC із виходу змішаної моделі становить 0,42).
Отже, мої запитання: 1) за яких умов стандартні помилки будуть помітно відрізнятися, коли відбувається кластеризація, і 2) чи може хтось навести приклад такого набору даних (імітований чи ні).