Чим відрізняється коефіцієнт кореляції від нахилу регресії?


69

Я б очікував, що коефіцієнт кореляції буде таким же, як і нахил регресії (бета), однак лише порівнявши два, вони різні. Чим вони відрізняються - яку різну інформацію вони дають?


3
якщо вони нормалізуються, вони однакові. але подумайте, що станеться, коли ви зміните одиниці ...
nicolas

Я думаю, що відповіді на цей Q відповідають (і, можливо, навіть мій А на нього, де я показую, що коефіцієнт кореляції можна розглядати як абсолютне значення середнього геометричного рівня двох схилів, які ми отримаємо, якщо регресувати y на x і x на y відповідно) тут також доречні
statmerkur

Відповіді:


82

Yi=α+βXi+εi
β^=cor(Yi,Xi)SD(Yi)SD(Xi)
SD(Yi)=SD(Xi)

XiYi

  • ±1

  • YiXiβ^YiXi


Як наслідок цієї відповіді, зауважте, що регресування x проти y не є зворотним регресуванням y проти x!
агіненський


14

Коефіцієнт кореляції вимірює "герметичність" лінійної залежності між двома змінними і обмежений між -1 і 1 включно. Кореляції, близькі до нуля, не представляють собою лінійної асоціації між змінними, тоді як кореляції, близькі до -1 або +1, вказують на сильну лінійну залежність. Інтуїтивно зрозуміло, чим простіше вам провести лінію, що найкраще підходить через розсіювач, тим вони більш співвіднесені.

+

Тож коефіцієнт кореляції та нахил регресії ОБОВ'ЯЗКОВО мають однаковий знак (+ або -), але майже ніколи не матимуть однакового значення.

Для простоти ця відповідь передбачає просту лінійну регресію.


inf,inf

1

Коефіцієнт кореляції Пірсона є безрозмірним і масштабується між -1 та 1 незалежно від розмірності та масштабу вхідних змінних.

Якщо (наприклад) ви вводите масу в грамах або кілограмах, це не має значення для значення , тоді як це зробить величезну різницю для градієнта / схилу (який має розмір і відповідно масштабується ... аналогічно, це не матиме жодної різниці для якщо шкала коригується будь-яким способом, включаючи замість цього використання фунтів або тонн).rr

Проста демонстрація (вибачення за використання Python!):

import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]

показує, що хоча нахил збільшено в 10 разів.r=0.969363

Я мушу зізнатися, що це акуратний трюк, що стає масштабним між -1 та 1 (один із тих випадків, коли чисельник ніколи не може мати абсолютного значення, що перевищує знаменник).r

Як @Macro детально пояснив вище, нахил , тож ви правильно розумієте, що Пірсона пов'язаний зі схилом, але тільки коли його регулюють відповідно до до стандартних відхилень (що ефективно відновлює розміри та масштаби!).b=r(σyσx)r

Спочатку я подумав, що дивним є те, що формула, здається, підказує, що слабко підігнана лінія (низький ) призводить до зниження градієнта; потім я побудував приклад і зрозумів, що за даного градієнта зміна "пухкості" призводить до зменшення але це компенсується пропорційним збільшенням .rrσy

На графіку нижче нанесено чотири набори даних :x,y

  1. результати (тому градієнт , , , ) ... зауважимо, щоy=3xb=3r=1σx=2.89σy=8.66σyσx=3
  2. те саме, але змінюється випадковим числом, з , , , з якого ми можемо обчислитиr=0.2447σx=2.89σy=34.69b=2.94
  3. b = 15 r = 1 σ x = 0,58 σ y = 8,66y=15x (тому і , , )b=15r=1σx=0.58σy=8.66
  4. те саме, що (2), але зі зменшеним діапазоном так (і все-таки , , ) б = 14.70 г = 0,2447 σ х = 0,58 σ у = 34.69xb=14.70r=0.2447σx=0.58σy=34.69кореляція та градієнт

Видно, що дисперсія впливає на не обов'язково впливаючи на , а одиниці вимірювання можуть впливати на масштаб і, таким чином, не впливаючи наb b rrbbr

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.