Варіаційно-коваріаційна матриця помилок у лінійній регресії


12

Як на практиці обчислюється матриця помилок var / cov статистичними пакетами аналізу?

Ця ідея мені зрозуміла в теорії. Але не на практиці. Я маю на увазі, якщо у мене є вектор випадкових змінних , я розумію, що матриця дисперсії / коваріації буде надано зовнішній добуток векторів відхилення від середнього значення: . Σ Σ = E [ ( X - E ( X ) ) ( X - E ( X ) ) ]X=(X1,X2,,Xn)ΣΣ=E[(XE(X))(XE(X))]

Але коли я маю вибірку, помилки моїх спостережень не є випадковими змінними. Або краще, вони є, але тільки якщо я беру кілька однакових зразків з однієї сукупності. В іншому випадку вони даються. Отже, знову моє запитання: як статистичний пакет може створити матрицю var / cov, починаючи зі списку спостережень (тобто вибірки), наданих дослідником?


Помилки ваших спостережень є функцією випадкових змінних (у) і тому самі є випадковими. Умовно лише для X вони не даються.
користувач603

1
Так, я з цим повністю згоден. Але те, що ви говорите, працює теоретично. Якщо я намалюю, скажімо, 100 випадкових вибірок однакового розміру з однієї сукупності, кожна помилка спостереження буде випадковою змінною з (0, сигма ^ 2). Що робити, якщо натомість я намалюю лише один зразок? У цьому випадку середнє значення помилки кожного спостереження - це сама помилка. Чи зрозуміло, що я говорю? Отже, що я намагаюся зрозуміти, це те, як пакет, як Stata, обчислює дисперсію-коваріаційну матрицю, використовуючи лише один зразок, взятий з сукупності?
Ріккардо

Відповіді:


7

Матриця коваріації для моделі типу зазвичай обчислюється як де є залишкова сума квадратів, і - ступеня свободи (як правило, кількість спостережень мінус кількість параметрів).y=Xβ+ϵ

(XtX)1σ2d
σ2σ2=i(yiXiβ^)2d

Для надійних та кластеризованих стандартних помилок, твір модифікується незначно. Можуть бути й інші способи обчислення матриці коваріації, наприклад, як це підказує очікування зовнішніх продуктів.XtX


3
  1. МНК оцінка від дисперсії помилки , :σ2

s2=ε^ε^np

Це включено у « Практична регресія» та «Anova» за допомогою R від Julian J. Faraway, стор. 21 .

Приклад його обчислення в R, на основі лінійної моделі миль на галон регресувати на декількох автомобілів моделі специфікації , включеної в mtcarsбазі даних: ols = lm(mpg ~ disp + drat + wt, mtcars). Це ручні обчислення та вихід lm()функції:

> rdf = nrow(X) - ncol(X)                    # Residual degrees of freedom
> s.sq = as.vector((t(ols$residuals) %*% ols$residuals) / rdf) 
>                                            # s square (OLS estimate of sigma square)
> (sigma = sqrt(s.sq))                       # Residual standar error
[1] 2.950507
> summary(ols)

Call:
lm(formula = mpg ~ disp + drat + wt, data = mtcars)
...
Residual standard error: 2.951 on 28 degrees of freedom
  1. Варіантність - матриця коваріації розрахункових коефіцієнтів , :β^

Var[β^X]=σ2(XX)1

оцінено як на сторінці 8 цього інтернет-документа як

Var^[β^X]=s2(XX)1
> X = model.matrix(ols)                             # Model matrix X
> XtX = t(X) %*% X                                  # X transpose X
> Sigma = solve(XtX) * s.sq                         # Variance - covariance matrix
> all.equal(Sigma, vcov(ols))                       # Same as built-in formula
[1] TRUE
> sqrt(diag(Sigma))                                 # Calculated Std. Errors of coef's
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 
> summary(ols)[[4]][,2]                             # Output of lm() function
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 

2

При лінійній регресії ми підходимо до моделі . - залежна змінна, - прогностичні (пояснювальні) змінні. Ми використовуємо надані нам дані (навчальний набір або зразок) для оцінки популяції . У «s не зважають випадковими величинами. В «s є випадковими через компонента помилки.Y X β X YY=βX+εYXβXY


Привіт Раджів, дякую за виправлення. Отже, чи можете ви пояснити, як Stata (або будь-який інший пакет статистики), починаючи з Y (і epsilon), вдається отримати матрицю дисперсії-коваріації Sigma?
Ріккардо

шляхом обчислення . e^e^
user603

Погодитися з користувачем603. Перевірте сторінку 21 із cran.r-project.org/doc/contrib/Faraway-PRA.pdf . Це засновано на R, але включає гарне обговорення теорії лінійної регресії.
Раджив Самбасіван

Привіт обом, дякую, насамперед. Я також згоден з вами, user603, і ​​я очікував цієї відповіді. Але якщо матриця var / cov вона обчислюється обчисленням зовнішнього добутку векторів помилок, це означає, що cov серед компонентів помилок у більшості випадків не буде нульовим, як це випливає з гіпотези незалежності. Правильно? Це те, в чому обертається мій сумнів. Раджів, я переглянув хороший посібник, який ти запропонував, але не зміг знайти відповідь. Заздалегідь дякую за будь-яку майбутню відповідь.
Ріккардо
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.