Аналітичне рішення оцінок коефіцієнта лінійної регресії

9

Я намагаюся зрозуміти матричне позначення та працюю з векторами та матрицями.

Зараз я хотів би зрозуміти, як обчислюється вектор оцінок коефіцієнта при множинній регресії. $\hat{\beta}$

Основне рівняння, здається, є

\frac{d}{d β} (y - X β)^{'} (y - X β) = 0 .

$\frac{d}{d\boldsymbol{\beta}} (\boldsymbol{y}-\boldsymbol{X\beta})'(\boldsymbol{y}-\boldsymbol{X\beta}) = 0 \>.$

Тепер як би я вирішив для вектора $\beta$ тут?

Редагувати : Зачекайте, я застряг. Зараз я тут і не знаю, як далі:

$\frac{d}{d{\beta}} \left( \left(\begin{smallmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{smallmatrix}\right) - \left(\begin{smallmatrix} 1 & x_{11} & x_{12} & \dots & x_{1p} \\ 1 & x_{21} & x_{22} & \dots & x_{2p} \\ \vdots & & & & \vdots \\ 1 & x_{n1} & x_{n2} & \dots & x_{np} \\ \end{smallmatrix}\right) \left(\begin{smallmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{smallmatrix}\right) \right) ' \left( \left(\begin{smallmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{smallmatrix}\right) - \left(\begin{smallmatrix} 1 & x_{11} & x_{12} & \dots & x_{1p} \\ 1 & x_{21} & x_{22} & \dots & x_{2p} \\ \vdots & & & & \vdots \\ 1 & x_{n1} & x_{n2} & \dots & x_{np} \\ \end{smallmatrix}\right) \left(\begin{smallmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{smallmatrix}\right) \right)$

$\frac{d}{d{\beta}} \sum_{i=1}^n \left( y_i - \begin{pmatrix} 1 & x_{i1} & x_{i2} & \dots & x_{ip} \end{pmatrix} \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{pmatrix} \right)^2$

З для всіх перехоплення: $x_{i0} = 1$ $i$

$\frac{d}{d{\beta}} \sum_{i=1}^n \left( y_i - \sum_{k=0}^p x_{ik} \beta_k \right)^2$

Чи можете ви вказати мене в правильному напрямку?

regression

— Олександр Енгельгардт
джерело

@GaBorgulya, дякую за редагування, про це не знав smallmatrix, тому не намагався редагувати, оскільки звичайне рішення розбиття формули на кілька рядків тут не працювало б.

— mpiktas

12

Ми маємо

$\frac{d}{d\beta} (y - X \beta)' (y - X\beta) = -2 X' (y - X \beta)$ .

Це можна показати, якщо явно записати рівняння з компонентами. Наприклад, напишіть замість . Потім візьміть похідні щодо , , ..., і усе, щоб отримати відповідь. Для швидкої та простої ілюстрації ви можете почати з . $(\beta_{1}, \ldots, \beta_{p})'$ $\beta$ $\beta_{1}$ $\beta_{2}$ $\beta_{p}$ $p = 2$

З досвідом розробляються загальні правила, деякі з яких наведені, наприклад, у цьому документі .

Відредагуйте, щоб указати додану частину питання

З маємо $p = 2$

$(y - X \beta)'(y - X \beta) = (y_1 - x_{11} \beta_1 - x_{12} \beta_2)^2 + (y_2 - x_{21}\beta_1 - x_{22} \beta_2)^2$

Похідна щодо є $\beta_1$

$-2x_{11}(y_1 - x_{11} \beta_1 - x_{12} \beta_2)-2x_{21}(y_2 - x_{21}\beta_1 - x_{22} \beta_2)$

Аналогічно, похідна щодо є $\beta_2$

$-2x_{12}(y_1 - x_{11} \beta_1 - x_{12} \beta_2)-2x_{22}(y_2 - x_{21}\beta_1 - x_{22} \beta_2)$

Отже, похідна щодо є $\beta = (\beta_1, \beta_2)'$

$\left( \begin{array}{c} -2x_{11}(y_1 - x_{11} \beta_1 - x_{12} \beta_2)-2x_{21}(y_2 - x_{21}\beta_1 - x_{22} \beta_2) \\ -2x_{12}(y_1 - x_{11} \beta_1 - x_{12} \beta_2)-2x_{22}(y_2 - x_{21}\beta_1 - x_{22} \beta_2) \end{array} \right)$

Тепер зауважте, що ви можете переписати останній вираз як

$-2\left( \begin{array}{cc} x_{11} & x_{21} \\ x_{12} & x_{22} \end{array} \right)\left( \begin{array}{c} y_{1} - x_{11}\beta_{1} - x_{12}\beta_2 \\ y_{2} - x_{21}\beta_{1} - x_{22}\beta_2 \end{array} \right) = -2 X' (y - X \beta)$

Звичайно, все робиться так само для більшого . $p$

— окрам
джерело

Дивовижно, я шукав саме такий тип PDF. Дякую тонну!

— Олександр Енгельгардт

О, я думав, що зараз можу це зробити сам, але не можу. Чи можете ви сказати мені, чи правильні мої кроки чи я повинен зробити "інший шлях" для вирішення цього питання?

— Олександр Енгельгардт

@Alexx Hardt: Моє перше рівняння в редагуванні таке саме, як і ваше останнє рівняння в конкретному випадку, коли p = 2. Отже, ви можете імітувати мої обчислення для компонентів 3, 4, ..., с.

— окрам

Ще раз дякую :) Я думаю, що я фактично використаю всі три пропозиції. Я будую .pdf, який пояснює і підсумовує основну алгебру матричної статистики, тому що я якось ніколи не хотів її вивчати, коли вивчав її на своїх заняттях. Розв'язати це трьома різними способами допоможе мені зрозуміти це краще, сподіваюся.

— Олександр Енгельгардт

О, але це для p = 2 і n = 2, правда? Я запишу це з n = 3, думаю.

— Олександр Енгельгардт

13

Ви також можете використовувати формули з кулінарної книги Matrix . Ми маємо

(y - X β)^{'} (y - X β) = y^{'} y - β^{'} X^{'} y - y^{'} X β + β^{'} X^{'} X β

$(y-X\beta)'(y-X\beta)=y'y-\beta'X'y-y'X\beta+\beta'X'X\beta$

Тепер візьміть похідні кожного терміна. Ви можете помітити, що . Похідна від терміна щодо дорівнює нулю. Залишився термін $\beta'X'y=y'X\beta$ $y'y$ $\beta$

β^{'} X^{'} X β - 2 y^{'} X β

$\beta'X'X\beta-2y'X\beta$

є формою функції

f (x) = x^{'} A x + b^{'} x,

$f(x)=x'Ax+b'x,$

у формулі (88) у книзі на сторінці 11, з , і . Похідна наведена у формулі (89): $x=\beta$ $A=X'X$ $b=-2X'y$

\frac{\partial f}{\partial x} = (A + A^{'}) x + b

$\frac{\partial f}{\partial x}=(A+A')x+b$

тому

\frac{\partial}{\partial β} (y - X β)^{'} (y - X β) = (X^{'} X + (X^{'} X)^{'}) β - 2 X^{'} y

$\frac{\partial}{\partial \beta}(y-X\beta)'(y-X\beta)=(X'X+(X'X)')\beta-2X'y$

Тепер, оскільки ми отримуємо потрібне рішення: $(X'X)'=X'X$

X^{'} X β = X^{'} y

$X'X\beta=X'y$

— mpiktas
джерело

+1 mpiktas: Ваше рішення більш геніальне, ніж моє, і я думаю, що його слід використовувати в більш складних практичних ситуаціях.

— окрам

1

@ocram, спасибі Я б не назвав це геніальним, це стандартне застосування існуючих формул. Вам просто потрібно знати формули :)

— mpiktas

8

Ось методика мінімізації суми квадратів у регресії, яка насправді має додатки до більш загальних налаштувань і яка мені здається корисною.

Спробуймо взагалі уникнути обчислення векторної матриці.

Припустимо, ми зацікавлені у мінімізації де , та . Для простоти вважаємо, що і .

E = (y - X β)^{T} (y - X β) = ‖ y - X β ‖_{2}^{2},

$\newcommand{\err}{\mathcal{E}}\newcommand{\my}{\mathbf{y}}\newcommand{\mX}{\mathbf{X}}\newcommand{\bhat}{\hat{\beta}}\newcommand{\reals}{\mathbb{R}} \err = (\my - \mX \beta)^T (\my - \mX \beta) = \|\my - \mX \beta\|_2^2 \> ,$

y \in R^{n}

$\my \in \reals^n$

X \in R^{n \times p}

$\mX \in \reals^{n\times p}$

β \in R^{p}

$\beta \in \reals^p$

p \leq n

$p \leq n$

r a n k (X) = p

$\mathrm{rank}(\mX) = p$

Для будь-якого , отримуємо $\bhat \in \reals^p$

E = ‖ y - X \hat{β} + X \hat{β} - X β ‖_{2}^{2} = ‖ y - X \hat{β} ‖_{2}^{2} + ‖ X (β - \hat{β}) ‖_{2}^{2} - 2 (β - \hat{β})^{T} X^{T} (y - X \hat{β}) .

$\err = \|\my - \mX \bhat + \mX \bhat - \mX \beta\|_2^2 = \|\my - \mX \bhat\|_2^2 + \|\mX(\beta-\bhat)\|_2^2 - 2(\beta - \bhat)^T \mX^T (\my - \mX \bhat) \>.$

Якщо ми можемо вибрати (знайти!) Вектор такий, що останній термін з правого боку дорівнює нулю для кожного , тоді ми б це зробили, оскільки це означатиме, що . $\bhat$ $\beta$ $\min_\beta \err \geq \|\my - \mX \bhat\|_2^2$

Але, для всіх якщо і лише тоді, коли і останнє рівняння є істинним, якщо і лише тоді, коли . Тож мінімізується, приймаючи . $(\beta - \bhat)^T \mX^T (\my - \mX \bhat) = 0$ $\beta$ $\mX^T (\my - \mX \bhat) = 0$ $\mX^T \mX \bhat = \mX^T \my$ $\err$ $\bhat = (\mX^T \mX)^{-1} \mX^T \my$

Хоча це може здатися "фокусом", щоб уникнути обчислення, воно насправді має більш широке застосування, і тут є якась цікава геометрія.

Одним із прикладів, коли ця методика робить виведення набагато простішим, ніж будь-який підхід до обчислення матриць-вектора, - це коли ми узагальнюємо до матричного випадку. Нехай , і . Припустимо, ми хочемо мінімізувати на всій матриці параметрів . Тут - коваріаційна матриця. $\newcommand{\mY}{\mathbf{Y}}\newcommand{\mB}{\mathbf{B}}\mY \in \reals^{n \times p}$ $\mX \in \reals^{n \times q}$ $\mB \in \reals^{q \times p}$

E = t r ((Y - X B) Σ^{- 1} (Y - X B)^{T})

$\err = \mathrm{tr}( (\mY - \mX \mB) \Sigma^{-1} (\mY - \mX \mB)^T )$

B

$\mB$

Σ

$\Sigma$

Цілком аналогічний підхід до вищезазначеного швидко встановлює, що мінімум досягається, приймаючи Тобто, в регресійній обстановці, де відповідь є вектором з коваріацією а спостереження незалежні, тоді оцінка OLS досягається шляхом виконання окремих лінійних регресій на компонентах відповіді. $\err$

\hat{B} = (X^{T} X)^{- 1} X^{T} Y .

$\hat{\mB} = (\mX^T \mX)^{-1} \mX^T \mY \>.$

Σ

$\Sigma$

p

$p$

— кардинальний
джерело

На щастя, правила форуму дозволяють додавати +1 до кожної відповіді. Дякую за освіту, хлопці!

— DWin

@DWin, ти мав на увазі розмістити це під коментарями до питання?

— кардинал

Я гадаю, що міг би. Я послідовно перебирав питання, а потім усі відповіді (після обробки MathML перестали смикатись) і знайшов кожну відповідь інформативною. Я просто кинув свій коментар до вашого, бо саме там я перестав читати.

— DWin

1

@DWin, так, візуалізація трохи прикольна. Я подумав, що ви, можливо, задумали коментар для іншої публікації, оскільки цей голос не має голосів (вгору чи вниз), і тому коментар, здається, недоречний. Ура.

— кардинал

1

@cardinal +1, корисна хитрість. Це питання виявилося досить хорошим посиланням.

— mpiktas

6

Один із способів, який може допомогти вам зрозуміти, - це не використовувати матричну алгебру, а розмежовувати її відносно кожного компонента, а потім "зберігати" результати у векторному стовпці. Отже, у нас є:

\frac{\partial}{\partial β_{k}} \sum_{i = 1}^{N} {(Y_{i} - \sum_{j = 1}^{p} X_{i j} β_{j})}^{2} = 0

$\frac{\partial}{\partial \beta_{k}}\sum_{i=1}^{N}\left(Y_{i}-\sum_{j=1}^{p}X_{ij}\beta_{j}\right)^{2}=0$

Тепер у вас є цих рівнянь, по одному для кожної бета-версії. Це просте застосування ланцюгового правила: $p$

\sum_{i = 1}^{N} 2 {(Y_{i} - \sum_{j = 1}^{p} X_{i j} β_{j})}^{1} (\frac{\partial}{\partial β_{k}} [Y_{i} - \sum_{j = 1}^{p} X_{i j} β_{j}]) = 0

$\sum_{i=1}^{N}2\left(Y_{i}-\sum_{j=1}^{p}X_{ij}\beta_{j}\right)^{1}\left(\frac{\partial}{\partial \beta_{k}}\left[Y_{i}-\sum_{j=1}^{p}X_{ij}\beta_{j}\right]\right)=0$

- 2 \sum_{i = 1}^{N} X_{i k} (Y_{i} - \sum_{j = 1}^{p} X_{i j} β_{j}) = 0

$-2\sum_{i=1}^{N}X_{ik}\left(Y_{i}-\sum_{j=1}^{p}X_{ij}\beta_{j}\right)=0$

Тепер ми можемо переписати суму всередині дужки як Отже, ви отримуєте: $\sum_{j=1}^{p}X_{ij}\beta_{j}=\bf{x}_{i}^{T}\boldsymbol{\beta}$

\sum_{i = 1}^{N} X_{i k} Y_{i} - \sum_{i = 1}^{N} X_{i k} x_{i}^{T} β = 0

$\sum_{i=1}^{N}X_{ik}Y_{i}-\sum_{i=1}^{N}X_{ik}\bf{x}_{i}^{T}\boldsymbol{\beta}=0$

Тепер у нас є цих рівнянь, і ми "складемо їх" у векторному стовпчику. Зверніть увагу, як - єдиний доданок, який залежить від , тому ми можемо скласти це у вектор і отримаємо: $p$ $X_{ik}$ $k$ $\bf{x}_{i}$

\sum_{i = 1}^{N} x_{i} Y_{i} = \sum_{i = 1}^{N} x_{i} x_{i}^{T} β

$\sum_{i=1}^{N}\bf{x}_{i}\rm{Y}_{i}=\sum_{i=1}^{N}\bf{x}_{i}\bf{x}_{i}^{T}\boldsymbol{\beta}$

Тепер ми можемо взяти бета-версію поза сумою (але повинна залишитися на RHS суми), а потім взяти інверс:

{(\sum_{i = 1}^{N} x_{i} x_{i}^{T})}^{- 1} \sum_{i = 1}^{N} x_{i} Y_{i} = β

$\left(\sum_{i=1}^{N}\bf{x}_{i}\bf{x}_{i}^{T}\right)^{-1}\sum_{i=1}^{N}\bf{x}_{i}\rm{Y}_{i}=\boldsymbol{\beta}$

— ймовірністьіслогічна
джерело