Включення випадкових термінів у модель - це спосіб індукувати деяку структуру коваріації між класами. Випадковий коефіцієнт для школи викликає ненульову коваріацію між різними учнями однієї школи, тоді як це коли школа відрізняється.0
Запишемо вашу модель як
де s індексує школу, а i індексує учнів (у кожній школі). Терміни школа s - незалежні випадкові величини, намальовані в N ( 0 , τ ) . В е з , я незалежні випадкові величини , зроблені в N ( 0 , сг
Ys,i=α+hourss,iβ+schools+es,i
sischoolsN(0,τ)es,i .
N(0,σ2)
Цей вектор очікував значення
[α+hourss,iβ]s,i
визначається кількістю відпрацьованих годин.
Коваріація між та Y s ′ , i ′ дорівнює 0, коли s ≠ s ′Ys,iYs′,i′0s≠s′ , що означає, що відхилення оцінок від очікуваних значень не залежить, коли учні не в одній школі.
Коваріація між і Y з , я ' є τ , коли я ≠ I ' , а дисперсія Y s , я це τ + σ 2Ys,iYs,i′τi≠i′Ys,iτ+σ2 : ранги студентів з тих же шкіл будуть корелювати відхилення від очікуваних значень .
Приклад та змодельовані дані
Ось коротке моделювання R для п’ятдесяти учнів п’яти шкіл (тут я беру ); імена змінної є самодокументуванням: σ2=τ=1
set.seed(1)
school <- rep(1:5, each=10)
school_effect <- rnorm(5)
school_effect_by_ind <- rep(school_effect, each=10)
individual_effect <- rnorm(50)
schools+es,i
plot(individual_effect + school_effect_by_ind, col=school, pch=19,
xlab="student", ylab="grades departure from expected value")
segments(seq(1,length=5,by=10), school_effect, seq(10,length=5,by=10), col=1:5, lty=3)
schoolsα+hoursβ , оцінка визначається часом, витраченим на роботу. Як результат, учні однієї школи схожі між собою, ніж учні різних шкіл, як ви заявили у своєму запитанні.
Матриця дисперсії для цього прикладу
schoolses,i
⎡⎣⎢⎢⎢⎢⎢⎢A00000A00000A00000A00000A⎤⎦⎥⎥⎥⎥⎥⎥
10×10AA=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢2111111111121111111111211111111112111111111121111111111211111111112111111111121111111111211111111112⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.