Еквівалентність кореляції вибірки та R статистика для простої лінійної регресії


10

Часто зазначається, що квадрат кореляції вибірки еквівалентний коефіцієнту визначення R 2 для простої лінійної регресії. Я не зміг цього продемонструвати і буду вдячний за повне підтвердження цього факту.r2R2


1
Якщо це питання для самостійного вивчення, будь ласка, додайте відповідний тег.
Енді

Це питання також задає, чому . R2=r2
Срібляста рибка

Відповіді:


8

Здається, є деякі зміни в позначеннях: у простій лінійній регресії я зазвичай бачив фразу "вибірковий коефіцієнт кореляції" із символом як посилання на кореляцію між спостережуваними значеннями x та y . Це нотація, яку я прийняв для цієї відповіді. Я також бачив ту ж фразу і символ , який використовується для позначення кореляції між спостережуваним у і підігнаній у ; в моїй обороні я говорив про це як «множинний коефіцієнт кореляції» і використовується символ R . Ця відповідь стосується того, чому коефіцієнт визначення є одночасно квадратом r, а також квадратом Rrxyyy^RrR, тому не має значення, яке використання було призначене.

Результат випливає з одного рядка алгебри, як тільки будуть встановлені прямі факти про співвідношення та значення R , тож ви можете скористатися перехідним до рівняння в коробці. Я припускаю, що нам не доведеться доводити основні властивості коваріації та дисперсії, зокрема:r2R

Var ( a X + b ) = a 2 Var ( X )

Cov(aX+b,Y)=aCov(X,Y)
Var(aX+b)=a2Var(X)

Зауважимо, що останнє може бути похідне від першого, як тільки ми знаємо, що коваріація симетрична і що . Звідси ми випливаємо ще один основний факт, щодо кореляції. Для 0 , і так довго , як Х і Y мають ненульові дисперсії,Var(X)=Cov(X,X)a0XY

Cor(aX+b,Y)=Cov(aX+b,Y)Var(aX+b)Var(Y)=aa2×Cov(X,Y)Var(X)Var(Y)Cor(aX+b,Y)=sgn(a)Cor(X,Y)

sgn(a)sgn(a)=+1a>0sgn(a)=1a<0sgn(a)=0a=0aX+bVar(aX+b)=0a,c0

Cor(aX+b,cY+d)=sgn(a)sgn(c)Cor(X,Y)

Нам не потрібна ця більш загальна формула для відповіді на поточне запитання, але я включаю її, щоб підкреслити геометрію ситуації: вона просто констатує, що кореляція не змінюється, коли будь-яка змінна масштабується або перекладається, але повертається в знак, коли змінна є відображено.

R2RYY^Y^=β^0+β^1XY^X

R=Cor(Y^,Y)=Cor(β^0+β^1X,Y)=sgn(β^1)Cor(X,Y)=sgn(β^1)r

R=±rRR2=r2

R2RR2=(R)2RR2nX1n

Вектори в предметному просторі множинної регресії

Y^YXe=yy^1n0=1ne=i=1neiYi=Yi^+eii=1nYi=i=1nYi^Y¯YY¯1nY^Y¯1nθR

Y^Y¯1ne

YY¯1n2=YY^2+Y^Y¯1n2

SStotal=SSresidual+SSregression1SSresidualSStotal1sin2θ=cos2θRR2=SSregressionSStotalcos2θ1SSresidualSStotalSSregressionSStotal


+1 спасибі за зусилля з приємного математики та графіків !!
Хайтао Ду

4

R2

R2=V^(y^i)V^(yi)=1/(N1)i=1N(y^iy¯)21/(N1)i=1N(yiy¯)2=ESSTSS
r2(yi,y^i)=(i=1N(yiy¯)(y^iy¯))2(i=1N(yiy¯)2)(i=1N(y^iy¯)2)
V^(yi)=V^(y^i)+V^(ei)

Чи можете ви додати ще детальну інформацію. Я намагався це довести, але не маючи успіху ...
Старий чоловік у морі.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.