Я б очікував, що коефіцієнт кореляції буде таким же, як і нахил регресії (бета), однак лише порівнявши два, вони різні. Чим вони відрізняються - яку різну інформацію вони дають?
Я б очікував, що коефіцієнт кореляції буде таким же, як і нахил регресії (бета), однак лише порівнявши два, вони різні. Чим вони відрізняються - яку різну інформацію вони дають?
Відповіді:
Коефіцієнт кореляції вимірює "герметичність" лінійної залежності між двома змінними і обмежений між -1 і 1 включно. Кореляції, близькі до нуля, не представляють собою лінійної асоціації між змінними, тоді як кореляції, близькі до -1 або +1, вказують на сильну лінійну залежність. Інтуїтивно зрозуміло, чим простіше вам провести лінію, що найкраще підходить через розсіювач, тим вони більш співвіднесені.
Тож коефіцієнт кореляції та нахил регресії ОБОВ'ЯЗКОВО мають однаковий знак (+ або -), але майже ніколи не матимуть однакового значення.
Для простоти ця відповідь передбачає просту лінійну регресію.
Коефіцієнт кореляції Пірсона є безрозмірним і масштабується між -1 та 1 незалежно від розмірності та масштабу вхідних змінних.
Якщо (наприклад) ви вводите масу в грамах або кілограмах, це не має значення для значення , тоді як це зробить величезну різницю для градієнта / схилу (який має розмір і відповідно масштабується ... аналогічно, це не матиме жодної різниці для якщо шкала коригується будь-яким способом, включаючи замість цього використання фунтів або тонн).
Проста демонстрація (вибачення за використання Python!):
import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]
показує, що хоча нахил збільшено в 10 разів.
Я мушу зізнатися, що це акуратний трюк, що стає масштабним між -1 та 1 (один із тих випадків, коли чисельник ніколи не може мати абсолютного значення, що перевищує знаменник).
Як @Macro детально пояснив вище, нахил , тож ви правильно розумієте, що Пірсона пов'язаний зі схилом, але тільки коли його регулюють відповідно до до стандартних відхилень (що ефективно відновлює розміри та масштаби!).
Спочатку я подумав, що дивним є те, що формула, здається, підказує, що слабко підігнана лінія (низький ) призводить до зниження градієнта; потім я побудував приклад і зрозумів, що за даного градієнта зміна "пухкості" призводить до зменшення але це компенсується пропорційним збільшенням .
На графіку нижче нанесено чотири набори даних :
Видно, що дисперсія впливає на не обов'язково впливаючи на , а одиниці вимірювання можуть впливати на масштаб і, таким чином, не впливаючи наb b r