Проста інтерпретація лінійної регресії


20

Я провів просту лінійну регресію природного журналу з двох змінних, щоб визначити, чи співвідносяться вони. Мій вихід такий:

R^2 = 0.0893

slope = 0.851

p < 0.001

Я збентежений. Дивлячись на значення , я б сказав, що дві змінні не співвідносяться, оскільки це так близько до . Однак нахил лінії регресії майже дорівнює (незважаючи на те, що на графіку він виглядає майже горизонтально), а значення p вказує на те, що регресія є дуже значною.R2101

Чи означає це , що дві змінні мають високу кореляцію? Якщо так, що означає значення ?R2

Додам, що статистика Дурбіна-Уотсона була протестована в моєму програмному забезпеченні, і не відкинула нульову гіпотезу (вона дорівнювала ). Я подумав, що це перевірено на незалежність між змінними. У цьому випадку я б очікував, що змінні будуть залежними, оскільки це вимірювання окремої птиці. Цю регресію я роблю як частину опублікованого методу визначення стану тіла людини, тому я припустив, що використовувати регресію таким чином має сенс. Однак, враховуючи ці результати, я думаю, що, можливо, для цих птахів цей метод не підходить. Чи здається це розумним висновком?2 21.35722


1
Статистика Дурбіна-Уотсона є тестом на послідовну кореляцію: тобто, щоб визначити, чи взаємопов'язані суміжні умови помилки . Це нічого не говорить про співвідношення між вашим X і вашим Y! Невдача тесту - це ознака того, що нахил та значення p слід тлумачити обережно.
whuber

Добренько. Це має трохи більше сенсу, ніж співвідношення двох змінних… зрештою, я думав, що саме це я намагався знайти за допомогою регресії. А те, що, якщо тест є невдалим, це означає, що мені слід обережно тлумачити нахил і значення p має в цьому випадку ще більше сенсу! Дякую @whuber!
Мог

1
Я хотів би лише додати, що нахил може бути дуже значущим (р-значення <.001), хоча зв'язок слабкий, особливо з великим розміром вибірки. На це натякали у більшості відповідей так, що нахил (навіть якщо він значний) нічого не говорить про силу відносин.
Глен

Вам потрібно щоб визначити силу відносин. Також дивіться stats.stackexchange.com/a/265924/99274 . н
Карл

Відповіді:


22

Орієнтовна величина схилу сама по собі не говорить про силу відносин. Сила взаємозв'язку залежить від величини дисперсії помилок та діапазону прогноктора. Крім того, значна -значення не означає вам обов'язково наявність міцних відносин; -значення просто тестування чи нахил точно 0. При досить великого розміру вибірки, навіть невеликі відхилення від цієї гіпотези (наприклад , ті , які не практичною значення) дасть значну -значення.p pppp

З трьох представлених вами кількостей - коефіцієнт визначення , найбільше вказує на силу зв'язку. У вашому випадку R 2 = .089 означає, що 8,9 % варіації змінної вашої відповіді можна пояснити лінійною залежністю з предиктором. Що є "великим" R 2, це залежить від дисципліни. Наприклад, в соціальних науках R 2 = .2 може бути "великим", але в контрольованих умовах, таких як заводські умови, R 2 > .9R2R2=.0898.9%R2R2=.2R2>.9може знадобитися сказати, що є "міцні" стосунки. У більшості ситуацій - це дуже малий R 2 , тому ваш висновок про слабку лінійну залежність, ймовірно, розумний..089R2


Спасибі Макрос Дуже корисна відповідь. Я радий, що ви включили частину про те, що саме, р-значення тестує. Має багато сенсу, що значення p було б таким низьким, враховуючи, наскільки близький до нахилу 1. Мені здається, у світлі вашої відповіді та @jedfrancis 'значення r ^ 2 описує ту «хмару» точок даних навколо лінії регресії. Відмінно! Це набагато зрозуміліше зараз!
Mog

@Macro (+1), прекрасна відповідь. Але як "сила відносин" залежить від "розміру перехоплення"? AFAIK перехоплювач взагалі нічого не говорить про кореляцію або "міцність" лінійних відносин.
whuber

@whuber, ти маєш рацію - перехоплення не має ніякого значення і, безумовно, не змінює кореляцію - я думав про функцію регресії проти y = x і думав якось про те, що другий є міцнішим відносинами ( всі інші дорівнювали рівним), оскільки більша сума величини y була зумовлена x в останньому випадку. Немає особливого сенсу зараз, коли я думаю про це. Я відредагував публікацію. у=10000+хy=xyх
Макрос

4
@macro Відмінна відповідь, але я наголошу (для тих, хто є новими в цій темі), що R ^ 2 може бути дуже низьким навіть при сильних відносинах, якщо відносини нелінійні, і особливо, якщо вони немонотонні. Мій улюблений приклад цього - взаємозв'язок між стресом та оцінкою; дуже низький стрес і дуже високий стрес, як правило, гірші, ніж помірний стрес.
Пітер Флом - Відновити Моніку

1
@macro Так, ваша відповідь була хорошою, але я працював з людьми, які не знають багато статистики, і я бачив, що відбувається ... інколи те, що ми говоримо, - це не те, що вони чують!
Пітер Флом - Відновити Моніку

14

говорить вам , скільки зміна залежної змінної пояснюється моделлю. Однак можна інтерпретувати R 2 , а також співвідношення між початковими значеннями залежної змінної та встановленими значеннями. Точну інтерпретацію та виведення коефіцієнта визначення R 2 можна знайти тут .R2R2R2

Доказ того, що коефіцієнт детермінації є еквівалентом коефіцієнта кореляції Пірсона Squared між що спостерігаються значеннями і підігнані значення у я можна знайти тут .уiу^i

або коефіцієнт детермінації вказує на силу вашої моделі в пояснення залежною змінною. У вашому випадку R 2 = 0,089 . Це те, що ваша модель здатна пояснити 8,9% варіації залежної від вас змінної. Або, коефіцієнт кореляції між у I і ваші підібраними значеннями у я є 0,089. Що є хорошим R 2 - це залежить від дисципліни.R2R2=0,089уiу^iR2

Нарешті, до останньої частини вашого питання. Ви не можете отримати тест Дурбіна-Уотсона, щоб сказати щось про співвідношення між залежними та незалежними змінними. Тести Дербіна-Уотсона на послідовну кореляцію. Він проводиться, щоб перевірити, чи взаємопов'язані ваші помилки.


9

Значення вказує, скільки варіацій даних пояснюється пристосованою моделлю.R2

Низьке значення у вашому дослідженні свідчить про те, що ваші дані, ймовірно, широко поширюються навколо лінії регресії, а це означає, що модель регресії може пояснити (дуже мало) 8,9% варіацій даних.R2

Ви перевірили, чи підходить лінійна модель? Погляньте на розподіл ваших залишків, оскільки ви можете використовувати це для оцінки відповідності моделі вашим даним. В ідеалі ваші залишки не повинні виявляти співвідношення з вашими значеннями , і якщо це станеться, ви можете подумати про те, щоб змінити свої змінні відповідним чином або підходити до більш відповідної моделі.х


Дякую @jed. Так, я перевірив нормальність залишків, і все було добре. Ваша думка про те, що дані широко розповсюджуються навколо цієї регресійної лінії, є абсолютно правильною - точки даних виглядають як хмара навколо лінії регресії, наміченої програмним забезпеченням.
Mog

1
Ласкаво просимо на наш сайт, @jed, і дякуємо за вашу відповідь! Зверніть увагу, що сам нахил майже нічого не говорить про кореляцію, окрім його ознаки, оскільки кореляція не залежить від одиниць, у яких вимірюються X та Y, але нахил.
whuber

1
@whuber говорить, що значення схилу нічого не говорить вам про силу асоціації, якщо змінні не стандартизовані. Дивіться відповідь shabbychefs.
wolf.rauch

@ wolf.rauch gotcha
jedfrancis

@jed Було б добре, якби ви виправили свою відповідь.
whuber

7

R2yxxyR2

Коротше кажучи, нахил не є хорошим показником «підгонки» моделі, якщо ви не впевнені, що шкали залежних і незалежних змінних повинні бути рівними одна одній.


1

Мені подобаються відповіді, які вже були надані, але дозвольте доповнити їх іншим (і тим більше мовою).

Припустимо, ми зібрали купу спостережень від 1000 випадкових людей, які намагаються з'ясувати, чи пов’язані удари в обличчя з головними болями:

Неагаcгодес=β0+β1Пунcгод_iн_тгоде_fаcе+ε

ε

β1R2

Графічно це, мабуть, схоже на крутий схил, але з дуже великою варіацією навколо цього схилу.


0

@Macro отримав чудову відповідь.

Орієнтовна величина схилу сама по собі не говорить про силу відносин. Сила взаємозв'язку залежить від розміру дисперсії помилок та діапазону прогноктора. Крім того, значне значення pp не означає, що ви маєте міцні стосунки; значення pp просто перевіряє, чи нахил рівно 0.

Я просто хочу додати числовий приклад, щоб показати, як виглядає опис випадку OP.

  • R2
  • Значний за р-значенням
  • 1,0

    set.seed(6)
    y=c(runif(100)*50,runif(100)*50+10)
    x=c(rep(1,100),rep(10,100))
    plot(x,y)
    
    fit=lm(y~x)
    summary(fit)
    abline(fit)
    
    
    > summary(lm(y~x))
    
    Call:
    lm(formula = y ~ x)
    
    Residuals:
       Min     1Q Median     3Q    Max 
    -24.68 -13.46  -0.87  14.21  25.14 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
    x             0.9164     0.2407   3.807 0.000188 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 15.32 on 198 degrees of freedom
    Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
    F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877
    

введіть тут опис зображення

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.