Зв'язок між


39

Скажімо, у мене є два одновимірних масиви, і . Кожен містить 100 точок даних. - фактичні дані, а - прогноз моделі. У цьому випадку значення було б: Тим часом це було б дорівнює квадратному значенню коефіцієнта кореляції, Тепер, якщо я поміняю два місця: - це фактичні дані, а - прогноз моделі. З рівняння , оскільки коефіцієнт кореляції не важливо, який приходить першим,a1a2a1a2R2

R2=1SSresSStot  (1).
R2=(Correlation Coefficient)2(2).
a2a1(2) ( 1 ) S S t o t = i ( y i - ˉ y ) 2 R 2 S S t o t y a 1 a 2 S S r e s = i ( f i - ˉ y ) 2R2Значення було б однаковим. Однак із рівняння , , значення зміниться, тому що змінився, якщо ми переключимо з на ; тим часом не змінюється.(1)SStot=i(yiy¯)2R2SStotya1a2SSres=i(fiy¯)2

Моє запитання: як вони можуть суперечити один одному?

Редагувати :

  1. Мені було цікаво, чи будуть стосунки у рівнянні. (2) все ще стоять, якщо це не проста лінійна регресія, тобто відношення між IV і DV не є лінійним (може бути експоненціальним / журналом)?

  2. Чи залишиться це співвідношення, якщо сума помилок передбачення не дорівнює нулю?


Цю презентацію я вважаю дуже корисною та не технічною: google.com/…
ihadanny

Відповіді:


19

Це правда, що зміниться ... але ви забули той факт, що також зміниться сума регресії квадратів. Отже, давайте розглянемо просту модель регресії і позначимо коефіцієнт кореляції як , де я використовував підіндекс для підкресліть той факт, що - незалежна змінна, а - залежна змінна. Очевидно, що не змінюється, якщо поміняти на . Ми можемо легко показати, що , де - сума регресії квадратів і r 2 x y = S 2 x ySStot xyxyr2 x y xySSRxy=Syy(R2 x y )SSRxySyyxyR2 x y =SSRxуrxy2=Sxy2SxxSyyxyxyrxy2xySSRxy=Syy(Rxy2)SSRxySyy- загальна сума квадратів, де незалежна, а - залежна змінна. Тому: де є відповідна залишкова сума квадратів, де незалежна і - залежна змінна. Зауважте, що в цьому випадку у нас є з (Див., Наприклад, урівень (34) - ( 41) тут .) Тому:Ясно вище рівняння симетричне відносноxySSExyxySSExy=b2 x y Sxxb=Sxy

Rxy2=SSRxySyy=SyySSExySyy,
SSExyxySSExy=bxy2Sxx R2 x y =Syy- S 2 x yb=SxySxx
Rxy2=SyySxy2Sxx2.SxxSyy=SyySxxSxy2Sxx.Syy.
xі . Іншими словами:Підводячи підсумок, коли ви змінюєте на у простій регресійній моделі, і чисельник, і знаменник зміниться так, щоy
Rxy2=Ryx2.
xyRxy2=SSRxySyyRxy2=Ryx2.

Дуже дякую! Я помітив, що це може бути, де я помилявся: стоїть лише в тому випадку, якщо 1) передбачення моделі є прямою лінією і 2) середнє значення прогнозування моделі дорівнює середньому зразків балів. Якщо зв'язок між DV та IV не є прямою чи сума помилок передбачення не дорівнює нулю, співвідношення не буде стояти. Скажіть, будь ласка, чи правильно це? R2=r2
Шон Ван

1
Я подумав про це, тому що ви використовували , тоді як я використовував рівняння, яке я розмістив в ОП. Ці два рівняння еквівалентні один одному лише тоді, коли сума помилок передбачення дорівнює нулю. Отже, в моєму ОП не змінюється, коли змінився, а значить, і змінено. R2=SSreg/SStotSSres=i(fiy¯)2SStotR2
Шон Ван

Чи трапляється у вас посилання на те, як розробити це для загального випадку p-змінних гауссів?
jmb

26

Один із способів інтерпретації коефіцієнта визначення - це розглядати його як Коефіцієнт кореляції Пірсона Пірсона між спостережуваними значеннями та встановленими значеннями .R2yiy^i

Повний доказ того, як отримати коефіцієнт визначення R2 від коефіцієнта кореляції Пірсона Пірсона між спостережуваними значеннями yi та встановленими значеннями y ^ i, можна знайти за наступним посиланням:

http://economictheoryblog.wordpress.com/2014/11/05/proof/

На моїх очах це має бути досить легко зрозуміти, просто слідкуйте за окремими кроками. Я думаю, дивлячись на це, важливо зрозуміти, як реально працює зв'язок між двома ключовими фігурами.


6

У випадку простої лінійної регресії з одним тільки прогноктором . Але при множинній лінійній регресії з більш ніж одним предиктором концепція кореляції між предикторами та реакцією не поширюється автоматично. Формула отримує: R2=r2=Corr(x,y)2

R2=Corr(yestimated,yobserved)2

Квадрат кореляції між відповіддю та встановленою лінійною моделлю.


5

@Stat дав детальну відповідь. У своїй короткій відповіді я коротко дещо по-іншому покажу, що таке схожість та різниця між та .rr2

r являє собою стандартизований коефіцієнт регресії бета з з допомогою або на і , як таке, воно є мірою (взаємної) величини ефекту . Що найбільш чітко видно, коли змінні дихотомічні. Тоді , наприклад, означає, що 30% випадків змінять своє значення на протилежне в одній змінній, коли інша змінна змінює своє значення на протилежне.YXXYr.30

r2 , з іншого боку, - вираження частки співперемінності у загальній мінливості: . Зауважте, що це добуток двох пропорцій, або, точніше сказати, двох співвідношень (співвідношення може бути> 1). Якщо вільно означає, що будь-яка пропорція чи коефіцієнт є квазіімовірністю або схильністю, то виражає "спільну ймовірність (схильність)". Іншим і, як вірним виразом, для спільного добутку двох пропорцій (або співвідношень) буде їх геометричне середнє значення , що дуже .r2=(covσxσy)2=|cov|σx2|cov|σy2r2proppropr

(Два співвідношення мультиплікативний, а НЕ адитивний, щоб підкреслити думку , що вони співпрацюють і не можуть компенсувати один одного, в їх спільній роботі. Вони повинні бути мультиплікативний , оскільки величина залежить від обох величин і і, відповідно, необхідно розділити два рази один раз, щоб перетворити себе на належну "пропорцію спільної дисперсії". Але , "перехресна дисперсія", має однакові одиниці вимірювання з обома та , "самовідмінності", а не зcovσx2σy2covcovσx2σy2σxσy, "гібридна дисперсія"; тому , а не , є більш адекватним як "частка спільної дисперсії".)r2r

Таким чином, ви бачите , що сенс в і як міру кількості асоціації різні (обидва значення дійсні), але всі ці коефіцієнти жодним чином НЕ суперечать один одному. І обидва ці ж передбачити , буде ви або .rr2Y~XX~Y


Дуже дякую! Я починаю задаватися питанням, чи використовую я неправильне визначення, що два визначення співіснують і вони не рівнозначні один одному. Не могли б ви допомогти мені в питанні, що - якщо я думаю про більш узагальнені випадки, коли модель не є простою лінійною регресією (може бути експоненціальною) - чи моє рівняння в ОП все-таки правильне для обчислення ? Це інша величина, яка також називається , але відрізняється від "коефіцієнта визначення"? R2R2R2
Шон Ван

Коефіцієнт визначення або R-квадрат - це більш широке поняття, ніж r ^ 2, яке стосується лише простої лінійної регресії. Будь ласка, прочитайте wikipedia en.wikipedia.org/wiki/Coefficient_of_determina .
ttnphns

Знову дякую! Що я розумію. Моє запитання: для більш складних регресій я можу все-таки квадратне значення r, щоб отримати коефіцієнт визначення?
Шон Ван

1
Для "складної регресії" ви отримуєте R-квадрат, але ви не отримуєте r.
ttnphns

1

Я думаю, ти можеш помилишся. Якщо , я припускаю, що у вас є двовимірна модель: один DV, один IV. Я не думаю, що зміниться, якщо ви поміняєте їх, або якщо ви заміните IV на прогнози DV, які базуються на IV. Ось код для демонстрації в R:R2=r2R2

x=rnorm(1000); y=rnorm(1000)              # store random data
summary(lm(y~x))                          # fit a linear regression model (a)
summary(lm(x~y))                          # swap variables and fit the opposite model (b)
z=lm(y~x)$fitted.values; summary(lm(y~z)) # substitute predictions for IV in model (a)

Якщо ви не працюєте з двовимірною моделлю, ваш вибір DV вплине на ..., якщо всі ваші змінні однаково співвідносяться, я думаю, але це не є великим винятком. Якщо всі змінні мають однакові сили кореляції і також поділяють однакові частини дисперсії DV (наприклад, [або, можливо, "тобто"], якщо деякі змінні є абсолютно однаковими), ви можете просто звести це до біваріантної моделі, не втрачаючи будь-яку інформацію. Ви робите це чи ні, все одно не зміниться.R2R2

У всіх інших випадках я можу придумати більш ніж дві змінні, де - коефіцієнт визначення, а - коефіцієнт двовимірного кореляції будь-якого виду (необов'язково, Пірсона; наприклад, можливо також a Spearman's ).R 2 r ρR2r2R2rρ


1
Нещодавно я зробив лінійну регресію потім обчислив і . Я бачив, як Excel також дає -ці, і спочатку я сміявся над цим, потім повільно прийшов до розуміння, і він перестав бути смішним. То правильне загальне визначення ? Що дає. S S R > S S T - R 2 R 2R2=0.1468SSR>SSTR2R2
Карл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.