Чи є спосіб використовувати коваріаційну матрицю для пошуку коефіцієнтів для множинної регресії?

Для простої лінійної регресії коефіцієнт регресії обчислюється безпосередньо з матриці дисперсії-коваріації через де - індекс залежної змінної, а - індекс пояснювальної змінної. $C$

\frac{C_{d, e}}{C_{e, e}}

$C_{d, e}\over C_{e,e}$

d

$d$

e

$e$

Якщо є лише матриця коваріації, чи можна обчислити коефіцієнти для моделі з кількома пояснювальними змінними?

ETA: Для двох пояснювальних змінних виявляється, що і аналогічно для . Я не відразу бачу, як розширити це на три чи більше змінних.

β_{1} = \frac{C o v (y, x_{1}) v a r (x_{2}) - C o v (y, x_{2}) C o v (x_{1}, x_{2})}{v a r (x_{1}) v a r (x_{2}) - C o v (x_{1}, x_{2})^{2}}

$\beta_1 = \frac{Cov(y,x_1)var(x_2) - Cov(y,x_2)Cov(x_1,x_2)}{var(x_1)var(x_2) - Cov(x_1,x_2)^2}$

β_{2}

$\beta_2$

regression regression-coefficients covariance-matrix

— Девід
джерело

Вектор коефіцієнтів

є рішенням

. Деякі алгебраїчні маніпуляції виявляють, що це насправді те саме, що формула, яку ви даєте у випадку 2-коефіцієнта. Тут добре викладено: stat.purdue.edu/~jennings/stat514/stat512notes/topic3.pdf . Не впевнений, чи це взагалі допомагає. Але я б ризикну здогадатися, що це взагалі неможливо на основі цієї формули.

\hat{β}

$\hat{\beta}$

X^{'} Y = (X^{'} X)^{- 1} β

$X'Y=(X'X)^{-1}\beta$

— shadowtalker

@David Ви зрозуміли, як поширити це на довільну кількість пояснювальних змінних (понад 2)? Мені потрібен вираз.

— Джейн Уейн

@JaneWayne Я не впевнений, що розумію ваше запитання: whuber дав рішення нижче в матричній формі,

C^{- 1} (Cov (X_{i}, y))^{'}

$C^{-1}(\text{Cov}(X_i, y))^\prime$

— Девід

так я це вивчив, і він має рацію.

— Джейн Уейн

Так, матриця коваріації всіх змінних - пояснювальна та відповідь - містить інформацію, необхідну для пошуку всіх коефіцієнтів, за умови, що в модель включений переривний (постійний) термін. (Хоча коваріанці не дають ніякої інформації про постійний термін, це можна знайти із засобів даних.)

Аналіз

Нехай дані для пояснювальних змінних бути організовані в вигляді - мірних векторів - стовпців і змінна відгуку бути вектор - стовпець , вважається реалізація випадкової величини . Звичайні оцінки найменших квадратів коефіцієнтів в моделі $n$ $x_1, x_2, \ldots, x_p$ $y$ $Y$ $\hat\beta$

E (Y) = α + X β

$\mathbb{E}(Y) = \alpha + X\beta$

виходять при складанні вектори - стовпці в масив і рішення системи лінійних рівнянь $p+1$ $X_0 = (1, 1, \ldots, 1)^\prime, X_1, \ldots, X_p$ $n \times p+1$ $X$

X^{'} X \hat{β} = X^{'} y .

$X^\prime X \hat\beta = X^\prime y.$

Він еквівалентний системі

\frac{1}{n} X^{'} X \hat{β} = \frac{1}{n} X^{'} y .

$\frac{1}{n}X^\prime X \hat\beta = \frac{1}{n}X^\prime y.$

Гауссова ліквідація вирішить цю систему. Це триває приєднанням до матрицю $p+1\times p+1$ і-вектор $\frac{1}{n}X^\prime X$ $p+1$ вмасивуі рядки знижують його. $\frac{1}{n}X^\prime y$ $p+1 \times p+2$ $A$

Першим кроком буде інспекція . Визначивши це ненульовим, він переходить до віднімання відповідних кратних елементів першого рядуз решти рядків, щоб нульові записи записати в першому стовпчику. Ці кратні будуть $\frac{1}{n}(X^\prime X)_{11} = \frac{1}{n}X_0^\prime X_0 = 1$ $A$ $\frac{1}{n}X_0^\prime X_i = \overline X_i$ $A_{i+1,j+1} = X_i^\prime X_j$ $\overline X_i \overline X_j$ $X_i$ $X_j$ $i+1, p+2$ $\frac{1}{n}X_i^\prime y - \overline{X_i}\overline{y}$ , the covariance of $X_i$ with $y$ .

Thus, after the first step of Gaussian elimination the system is reduced to solving

C \hat{β} = (Cov (X_{i}, y))^{'}

$C\hat{\beta} = (\text{Cov}(X_i, y))^\prime$

and obviously--since all the coefficients are covariances--that solution can be found from the covariance matrix of all the variables.

(When $C$ is invertible the solution can be written $C^{-1}(\text{Cov}(X_i, y))^\prime$ . The formulas given in the question are special cases of this when $p=1$ and $p=2$ . Writing out such formulas explicitly will become more and more complex as $p$ grows. Moreover, they are inferior for numerical computation, which is best carried out by solving the system of equations rather than by inverting the matrix $C$ .)

The constant term will be the difference between the mean of $y$ and the mean values predicted from the estimates, $X\hat{\beta}$ .

Example

To illustrate, the following R code creates some data, computes their covariances, and obtains the least squares coefficient estimates solely from that information. It compares them to the estimates obtained from the least-squares estimator lm.

#
# 1. Generate some data.
#
n <- 10        # Data set size
p <- 2         # Number of regressors
set.seed(17)
z <- matrix(rnorm(n*(p+1)), nrow=n, dimnames=list(NULL, paste0("x", 1:(p+1))))
y <- z[, p+1]
x <- z[, -(p+1), drop=FALSE]; 
#
# 2. Find the OLS coefficients from the covariances only.
#
a <- cov(x)
b <- cov(x,y)
beta.hat <- solve(a, b)[, 1]  # Coefficients from the covariance matrix
#
# 2a. Find the intercept from the means and coefficients.
#
y.bar <- mean(y)
x.bar <- colMeans(x)
intercept <- y.bar - x.bar %*% beta.hat

The output shows agreement between the two methods:

(rbind(`From covariances` = c(`(Intercept)`=intercept, beta.hat),
       `From data via OLS` = coef(lm(y ~ x))))

                  (Intercept)        x1        x2
From covariances     0.946155 -0.424551 -1.006675
From data via OLS    0.946155 -0.424551 -1.006675

— whuber
джерело

Thanks, @whuber! This is exactly what I was looking for, and my atrophied brain was unable to get to. As an aside, the motivation for the question is that for various reasons we essentially do not have the full

X

$X$ available, but have cov(z) from previous calculations.

— David

Answers like this raise the bar of this Cross Validated

— jpmuc

@whuber In your example, you computed the intercept from y and x and beta.hat. The y and x are part of the original data. Is it possible to derive the intercept from the covariance matrix and means alone? Could you please provide the notation?

— Jane Wayne

@Jane Given only the means

\bar{X}

$\bar X$ , apply

\hat{β}

$\hat \beta$ to them:

\bar{X} \hat{β} = \bar{X \hat{β}} .

$\overline X \hat\beta = \overline{X \hat\beta}.$ I have changed the code to reflect this.

— whuber

very helpful +1 for the code

— Майкл