Що говорить нам r, r квадрат і залишкове стандартне відхилення про лінійну залежність?


13

Невеликий фон
Я працюю над інтерпретацією регресійного аналізу, але мене дуже розгублено щодо значення r, r квадрата та залишкового стандартного відхилення. Я знаю визначення:

Характеристики

r вимірює силу і напрямок лінійної залежності між двома змінними на розсіювачі

R-квадрат - це статистичний показник того, наскільки близькі дані до встановленої лінії регресії.

Залишкове стандартне відхилення - це статистичний термін, що використовується для опису стандартного відхилення точок, утворених навколо лінійної функції, і є оцінкою точності вимірюваної залежної змінної. ( Не знаю, що це за підрозділи, будь-яка інформація про підрозділи тут буде корисною )

(джерела: тут )

Питання
Хоча я "розумію" характеристики, я розумію, як ці терміни створюють висновок про набір даних. Я вставлю сюди невеликий приклад, можливо, це може послужити керівництвом, щоб відповісти на моє запитання ( не соромтесь використовувати власний приклад!)

Приклад
Це не питання про робочу роботу, проте я шукав у своїй книзі, щоб отримати простий приклад (поточний набір даних, який я аналізую, занадто складний і великий для показу тут)

Двадцять ділянок, кожні 10 х 4 метри, були вибрані випадковим чином у великому полі кукурудзи. Для кожної ділянки спостерігали густоту рослин (кількість рослин на ділянці) та середню масу кукурудзи (гм зерна на кожну). Результати наведені в таблиці:
(джерело: Статистика наук про життя )

╔═══════════════╦════════════╦══╗
 Platn density  Cob weight   
╠═══════════════╬════════════╬══╣
           137         212   
           107         241   
           132         215   
           135         225   
           115         250   
           103         241   
           102         237   
            65         282   
           149         206   
            85         246   
           173         194   
           124         241   
           157         196   
           184         193   
           112         224   
            80         257   
           165         200   
           160         190   
           157         208   
           119         224   
╚═══════════════╩════════════╩══╝

Спочатку я зроблю розсіювач для візуалізації даних: Тому я можу обчислити r, R 2 та залишкове стандартне відхилення. Перший кореляційний тест:
введіть тут опис зображення

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

по-друге, підсумок лінії регресії:

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

Отже, виходячи з цього тесту: r = -0.9417954, R-квадрат: 0.887та Залишкова стандартна помилка: 8.619 Що ці значення говорять нам про набір даних? (див. питання )


3
Можливо, варто відзначити, що те, що ви називаєте "визначеннями", є лише випадковими характеристиками, і як таке може бути оманливим, залежно від способу їх інтерпретації та застосування. Фактичні визначення кількісні та точні.
whuber

Дякую за те, що я вказав, що джерела, якими я користувався, назвав ці визначення, проте без контексту "характеристик", мабуть, було б і справді краще, я це зміню!
KingBoomie

Шматки: R-квадрат зазвичай пояснюють як частку дисперсії, пояснену прогнозами, тому близьке до 1 добре. Одиницями залишкового стандартного відхилення повинні бути одиниці ваших залишків, які є одиницями змінної вашої відповіді.
алістер

Дякую! @alistaire насправді це має сенс ха-ха, оскільки ми порівнюємо значення y початкових точок з значеннями y передбачуваних балів
KingBoomie

Ви повинні побудувати залишки проти прогнозованих, як запропонував Девід у своїй відповіді.
HelloWorld

Відповіді:


5

Ці статистичні дані можуть розповісти вам про наявність лінійної складової у відносинах, але не дуже про те, чи відносини строго лінійні. Зв'язок з малою квадратичною складовою може мати r ^ 2 0,99. Діаграма залишків як функція передбачуваного може бути показовою. У експерименті Галілея тут https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html кореляція дуже висока, але зв'язок явно нелінійний.


5

Ось друга спроба відповіді після отримання зворотного зв’язку щодо питань з моєю першою відповіддю.

r|r||r|

R2r2R2

rR2rrR2rR2

Залишкова стандартна помилка - це стандартне відхилення для нормального розподілу, зосереджене на передбачуваній лінії регресії, що представляє розподіл фактично спостережуваних значень. Іншими словами, якщо ми мали би виміряти лише густоту рослин для нової ділянки, ми можемо передбачити вагу качана, використовуючи коефіцієнти встановленої моделі, це означає, що це розподіл. RSE - це стандартне відхилення цього розподілу, і, отже, міра на те, наскільки ми очікуємо, що фактично спостережувані ваги кобу відхиляться від значень, передбачених моделлю. У цьому випадку РЗЕ ~ 8 має порівнюватися зі стандартним відхиленням зразка ваги качана, але чим менший показник RSE порівняно із зразком SD, тим більш прогнозованою чи адекватною є модель.


@whuber На даний момент немає інших відповідей на це питання, тому я вирішив спробувати ще раз. Замість того, щоб відміняти стару відповідь, з усім багажем я вирішив просто написати нову (за винятком абзацу RSE, який я скопіював). Якщо у вас є час, я буду дуже вдячний за будь-який відгук про цю другу спробу. Мій звичайний підхід до оцінювання моделі - це перехресні валідації та набори відключення, оскільки метою зазвичай є прогнозування, але я дуже хотів би зрозуміти ці показники, оскільки вони досить поширені.
Йохан Фолкенак

2
|r|rρ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.