Яка різниця між кореляцією та простою лінійною регресією?


99

Зокрема, я маю на увазі коефіцієнт кореляції Pearson продукт-момент.


7
Зауважте, що один погляд на зв'язок між регресією та кореляцією можна виділити з моєї відповіді тут: Яка різниця між виконанням лінійної регресії на y з x проти x з у? .
gung

Відповіді:


114

Яка різниця між кореляцією між і і лінійною регресією, що передбачає від ?Y Y XXYYX

По-перше, деякі подібності :

  • стандартизований коефіцієнт регресії такий же, як і коефіцієнт кореляції Пірсона
  • Квадрат Коефіцієнта кореляції Пірсона такий же, як у простій лінійній регресіїR2
  • Ні проста лінійна регресія, ні кореляція безпосередньо не відповідають на питання причинності. Це важливо, тому що я зустрічав людей , які думають , що проста регресія може магічно дозволити висновок , що викликає .YXY

По-друге, деякі відмінності :

  • Рівняння регресії (тобто ) можна використовувати для прогнозування на основі значеньY Xa+bXYX
  • Хоча кореляція, як правило, відноситься до лінійних відносин, вона може посилатися на інші форми залежності, такі як поліном або справді нелінійні зв'язки
  • Хоча кореляція, як правило, відноситься до коефіцієнта кореляції Пірсона, є й інші типи кореляції, такі як Спірман.

Привіт Джеромі, дякую за пояснення, але у мене все ще виникає питання: що робити, якщо мені не потрібно робити прогнози, а просто хочу знати, наскільки близькі дві змінні та в якому напрямку / силі? Чи все-таки існує інше, використовуючи ці дві методики?
yue86231

3
@ yue86231 Тоді це здається, що міра кореляції була б більш доречною.
Джеромі Англім

5
(+1) До подібності може бути корисно додати, що стандартні тести гіпотези "кореляція = 0" або, що еквівалентно, "нахил = 0" (для регресії в будь-якому порядку), такі як, проведені в lmі cor.testв R, дасть однакові p-значення.
whuber

3
Я згоден, що пропозицію від @whuber слід додати, але на дуже базовому рівні я думаю, що варто зазначити, що знак нахилу регресії та коефіцієнт кореляції рівні. Це, мабуть, одне з перших речей, які більшість людей дізнаються про зв’язок між кореляцією та "лінією найкращого підходу" (навіть якщо вони ще не називають це "регресією"), але я думаю, що це варто зазначити. До відмінностей може також заслуговувати той факт, що ви отримуєте ту саму кореляцію відповіді X з Y або навпаки, але що регресія Y на X відрізняється від регресії X на Y.
Срібна рибка

36

Ось відповідь, яку я опублікував на веб-сайті graphpad.com :

Кореляція та лінійна регресія - не однакові. Розглянемо ці відмінності:

  • Кореляція кількісно визначає ступінь пов'язаності двох змінних. Кореляція не відповідає рядку через дані.
  • З кореляцією не потрібно думати про причину та наслідки. Ви просто кількісно визначите, наскільки дві змінні співвідносяться одна з одною. При регресії вам доведеться думати про причину і наслідки, оскільки лінія регресії визначається як найкращий спосіб прогнозувати Y від X.
  • З кореляцією не має значення, яку з двох змінних ви називаєте "X" і яку ви називаєте "Y". Ви будете отримувати однаковий коефіцієнт кореляції, якщо поміняти їх двома. При лінійній регресії, рішення якої змінної ви називаєте "X", а яку ви називаєте "Y", має велике значення, оскільки ви отримаєте іншу лінійку найкращого пристосування, якщо поміняти їх двома. Рядок, який найкраще прогнозує Y від X, не є тим самим, що і лінія, що прогнозує X від Y (якщо у вас немає ідеальних даних без розкиду).
  • Кореляція майже завжди використовується при вимірюванні обох змінних. Це рідко доцільно, коли однією змінною є те, що ви експериментально маніпулюєте. За допомогою лінійної регресії, змінна X - це те, що ви експериментально маніпулюєте (час, концентрація ...), а змінна Y - це те, що ви вимірюєте.

13
"найкращий спосіб передбачити Y від X" не має нічого спільного з причиною і наслідком: X може бути причиною Y або навпаки. Можна викликати причини до наслідків (дедукція) або наслідки до причин (викрадення).
Ніл Г

4
"ви отримаєте іншу лінійку найкращого пристосування, якщо поміняєте їх двома" - це трохи оману; стандартизовані укоси будуть однаковими в обох випадках.
ксеноцион

26

У випадку одинарного прогнозу лінійної регресії стандартизований нахил має те саме значення, що і коефіцієнт кореляції. Перевага лінійної регресії полягає в тому, що зв'язок може бути описаний таким чином, що ви можете передбачити (виходячи з співвідношення між двома змінними) бал за прогнозованою змінною з урахуванням будь-якого конкретного значення змінної предиктора. Зокрема, один фрагмент інформації лінійною регресією дає вам те, що кореляція не є перехопленням, значенням передбачуваної змінної, коли прогноктор дорівнює 0.

Якщо коротко - вони дають однакові результати обчислювально, але є більше елементів, які здатні інтерпретувати в простому лінійному регресії. Якщо вам цікаво просто охарактеризувати величину взаємозв'язку між двома змінними, використовуйте кореляцію - якщо вам цікаво передбачити або пояснити свої результати з точки зору конкретних значень, ви, мабуть, хочете регресії.


"Зокрема, одна інформація має лінійну регресію, яка відповідає вам, що кореляція не є перехопленням" ... Дуже велика різниця!
SIslam

Ну, озираючись на це, правда лише, що регресія забезпечує перехоплення, тому що для багатьох пакетів статистики це зробити за замовчуванням. Можна було легко обчислити регресію без перехоплення.
russellpierce

Так, можна було легко обчислити регресію без перехоплення, але це рідко було б значущим: stats.stackexchange.com/questions/102709/…
kjetil b halvorsen

@kjetilbhalvorsen За винятком випадків, які я описав, коли ви встановлюєте стандартизований ухил. Термін перехоплення в стандартизованому рівнянні регресії завжди дорівнює 0. Чому? Оскільки і IV, і DV були стандартизовані для одиниць балів - в результаті перехоплення є остаточно 0. Точно той випадок, який ви описуєте у своїй відповіді. (еквівалент стандартизації IV та DV). Коли і IV, і DV були стандартизовані на 0, перехоплення є остаточно 0.
russellpierce

11

Кореляційний аналіз лише кількісно визначає співвідношення двох змінних, ігноруючи, що є залежною змінною, а яка є незалежною. Але перед тим, як застосувати регресію, потрібно прояснити вплив тієї змінної, яку потрібно перевірити на іншій змінній.


9

Усі наведені відповіді поки що дають важливу інформацію, але не слід забувати, що ви можете перетворити параметри одного в інший:

Регресія:y=mx+b

Зв'язок між параметрами регресії та кореляцією, коваріацією, дисперсією, стандартним відхиленням та засобами: b= ˉ y -m ˉ x

m=Cov(y,x)Var(x)=Cor(y,x)Sd(y)Sd(x)
b=y¯mx¯

Таким чином, ви можете перетворити обох один на одного за допомогою масштабування та змінення їх параметрів.

Приклад в R:

y <- c(4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c(4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      6.5992      -0.3362
(m <- cov(y, x) / var(x)) # slope of regression
## [1] -0.3362361
cor(y, x) * sd(y) / sd(x) # the same with correlation
## [1] -0.3362361
mean(y) - m*mean(x)       # intercept
## [1] 6.599196

3

З кореляції ми можемо отримати лише індекс, що описує лінійну залежність між двома змінними; в регресії ми можемо передбачити взаємозв'язок між більш ніж двома змінними і можемо використовувати його для виявлення, які змінні x можуть передбачати змінну результату y .


3

Цитуючи Алтмана Д.Г., "Практична статистика медичних досліджень" Чапман і Холл, 1991 р., Сторінка 321: "Кореляція зводить набір даних до єдиного числа, що не має прямого відношення до фактичних даних. Регресія - набагато корисніший метод, результати, які чітко пов'язані з отриманим вимірюванням. Сила співвідношення явна, і невизначеність чітко видно з довірчих інтервалів або інтервалів прогнозування "


3
Хоча я співчуваю Алтману - методи регресії часто є більш підходящими, ніж кореляція у багатьох випадках, - ця цитата наводить солом'яний аргумент. У регресії OLS отримана інформація еквівалентна тій, що надається інформацією, яка надходить у розрахунок кореляції (всі перший і другий біваріантні моменти та їх стандартні помилки), а коефіцієнт кореляції надає ту саму інформацію, що і нахил регресії. Два підходи дещо відрізняються за основними моделями даних, які вони припускають, та їх інтерпретацією, але не за способами, на які заявляє Альтман.
whuber

1

Регресійний аналіз - це методика вивчення причини впливу співвідношення двох змінних. тоді як кореляційний аналіз - це методика кількісного визначення співвідношення двох змінних.


6
Ласкаво просимо в CV! З огляду на те, що відповідей на це питання вже багато, чи хочете ви їх ознайомитись і побачити, чи додає ваш щось нове? Якщо вам більше сказати, ви можете відредагувати це так.
Scortchi

0

Кореляція - це показник (всього одне число) сили відносин. Регресія - це аналіз (оцінка параметрів моделі та статистичний тест їх значущості) адекватності певного функціонального зв'язку. Розмір кореляції пов'язаний з тим, наскільки точними будуть прогнози регресії.


1
Ні це не так. Кореляція дає нам обмежені стосунки, але це не стосується того, наскільки точними можуть бути прогнози. R2 дає це.
SmallChess

-3

Кореляція - це термін у статистиці, який визначає, чи існує співвідношення між двома, а потім ступенем взаємозв'язку. Її діапазон становить від -1 до +1. Хоча регресія означає повернутися до середнього. З регресії ми прогнозуємо значення, зберігаючи одну змінну залежною, а іншу незалежну, але слід уточнити значення, яку змінну ми хочемо передбачити.


6
Привіт, @shakir, і ласкаво просимо до Cross Valified! Ви, мабуть, помітили, що це старе запитання (з 2010 року) і на нього вже дано сім (!) Відповідей. Було б непогано переконатися, що ваша нова відповідь додасть щось важливе до дискусії, про яку раніше не йшлося. На даний момент я не впевнений, що це так.
амеба
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.