Геометрична інтерпретація коефіцієнта множинної кореляції


24

Мене цікавить геометричне значення множинної кореляції R та коефіцієнт визначення R2 в регресії yi=β1+β2x2,i++βkxk,i+ϵi , або у векторних позначеннях ,

y=Xβ+ϵ

Тут проектна матриця X має n рядків і k стовпців, з яких перший - x1=1n , вектор 1s, що відповідає перехопленню β1 .

Геометрія цікавіша в n -вимірному предметному просторі, а не в k -вимірному просторі змінної. Визначте матрицю капелюхів:

H=X(XX)1X

Це ортогональна проекція на стовпчастий простір , тобто площина через початок, що проходить через k вектори, що представляють кожну змінну x i , перший з яких дорівнює 1 n . Тоді H проектує вектор спостережуваних реакцій у на його «тінь» на квартирі, вектор підігнаних значень у = Н у , і , якщо дивитися вздовж шляху проекції ми бачимо вектор нев'язки е = у - уXkxi1nHyy^=Hye=yy^утворює третю сторону трикутника. Це повинно дати нам два маршрути до геометричної інтерпретації :R2

  1. Квадрат множинного коефіцієнта кореляції, , який визначається як співвідношення між у і у . Це виглядатиме геометрично як косинус кута.Ryy^
  2. З точки зору довжин векторів: наприклад, .SSresidual=i=1nei2=e2

Я був би радий побачити короткий рахунок, який пояснює:

  • Більш детальні деталі для (1) та (2),
  • Чому (1) і (2) еквівалентні,
  • Коротко, як геометричне розуміння дозволяє нам візуалізувати основні властивості , наприклад, чому він переходить до 1, коли дисперсія шуму переходить до 0. (Зрештою, якщо ми не можемо зрозуміти нашу візуалізацію, то це не більше ніж гарненьке картина.)R2

Я вважаю, що це простіше, якщо змінні в першу чергу зосереджуються, що знімає перехоплення від питання. Однак у більшості облікових записів підручників, які вводять множину регресії, дизайнерська матриця така, як я виклала. Звичайно, добре, якщо експозиція заглибиться у простір, що охоплюється центрированими змінними, але для ознайомлення з лінійною алгеброю підручника було б дуже корисно співвіднести це з тим, що відбувається геометрично в ситуації, що не перебуває без цензури. Дійсно проникливий відповідь міг би пояснити , що саме руйнування геометричний , коли термін перехоплювати відкидається - тобто , коли вектор 1 пX1nзнімається з натяжного набору. Я не думаю, що цей останній пункт можна вирішити, розглядаючи лише центрировані змінні.

Відповіді:


47

Якщо в моделі є постійний термін, то лежить у просторі стовпців X (як і ˉ Y 1 n , який стане корисним пізніше). Обладнана Y являє собою ортогональную проекцію спостерігається Y на плоску , утвореної цій колонці простору. Це означає , що вектор залишків е = у - у перпендикулярна до квартири, і , отже , до 1 н . Розглядаючи крапковий добуток, ми можемо бачити n i = 1 e i = 0 , тому компоненти1nXY¯1nY^Ye=yy^1ni=1nei=0 має дорівнювати нулю. Оскільки Y ie ми приходимовисновкущо Σ п я = 1 Y я = Σ п я = 1 ^ Y я такщо обидва підігнані і спостерігаються реакції мають середню ˉ Y .Yi=Yi^+eii=1nYi=i=1nYi^Y¯

Vectors in subject space of multiple regression

Пунктирні лінії на діаграмі є і Y - ˉ Y 1 п , які є головним чином векторами ведеться спостереження і підігнаних відповідей. Косинус кута & thetas тому між цими векторами буде співвідношення Y і Y , який за визначенням є множинний коефіцієнт кореляції R . Трикутник ці вектори утворюють з вектором невязок є прямокутним , так як Y - ··· Y 1 п лежить в квартирі , але YY¯1nY^Y¯1nθYY^RY^Y¯1ne

R=cos(θ)=adjhyp=Y^Y¯1nYY¯1n

Ми також можемо застосувати Піфагора до трикутника:

YY¯1n2=YY^2+Y^Y¯1n2

Which may be more familiar as:

i=1n(YiY¯)2=i=1n(YiY^i)2+i=1n(Y^iY¯)2

This is the decomposition of the sums of squares, SStotal=SSresidual+SSregression.

The standard definition for the coefficient of determination is:

R2=1SSresidualSStotal=1i=1n(yiy^i)2i=1n(yiy¯)2=1YY^2YY¯1n2

When the sums of squares can be partitioned, it takes some straightforward algebra to show this is equivalent to the "proportion of variance explained" formulation,

R2=SSregressionSStotal=i=1n(y^iy¯)2i=1n(yiy¯)2=Y^Y¯1n2YY¯1n2

There is a geometric way of seeing this from the triangle, with minimal algebra. The definitional formula gives R2=1sin2(θ) and with basic trigonometry we can simplify this to cos2(θ). This is the link between R2 and R.

Note how vital it was for this analysis to have fitted an intercept term, so that 1n was in the column space. Without this, the residuals would not have summed to zero, and the mean of the fitted values would not have coincided with the mean of Y. In that case we couldn't have drawn the triangle; the sums of squares would not have decomposed in a Pythagorean manner; R2 would not have had the frequently-quoted form SSreg/SStotal nor be the square of R. In this situation, some software (including R) uses a different formula for R2 altogether.


1
+1 Very nice write-up and figure. I am surprised that it only has my single lonely upvote.
amoeba says Reinstate Monica

2
+1. Note that the figure of your answer, with "column space X", Y, Ypred as vectors etc. is what is known in multivariate statistics as "(reduced) subject space representation" (see, with further links where I've used it).
ttnphns
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.