Невеликий фон
Я працюю над інтерпретацією регресійного аналізу, але мене дуже розгублено щодо значення r, r квадрата та залишкового стандартного відхилення. Я знаю визначення:
Характеристики
r вимірює силу і напрямок лінійної залежності між двома змінними на розсіювачі
R-квадрат - це статистичний показник того, наскільки близькі дані до встановленої лінії регресії.
Залишкове стандартне відхилення - це статистичний термін, що використовується для опису стандартного відхилення точок, утворених навколо лінійної функції, і є оцінкою точності вимірюваної залежної змінної. ( Не знаю, що це за підрозділи, будь-яка інформація про підрозділи тут буде корисною )
(джерела: тут )
Питання
Хоча я "розумію" характеристики, я розумію, як ці терміни створюють висновок про набір даних. Я вставлю сюди невеликий приклад, можливо, це може послужити керівництвом, щоб відповісти на моє запитання ( не соромтесь використовувати власний приклад!)
Приклад
Це не питання про робочу роботу, проте я шукав у своїй книзі, щоб отримати простий приклад (поточний набір даних, який я аналізую, занадто складний і великий для показу тут)
Двадцять ділянок, кожні 10 х 4 метри, були вибрані випадковим чином у великому полі кукурудзи. Для кожної ділянки спостерігали густоту рослин (кількість рослин на ділянці) та середню масу кукурудзи (гм зерна на кожну). Результати наведені в таблиці:
(джерело: Статистика наук про життя )
╔═══════════════╦════════════╦══╗
║ Platn density ║ Cob weight ║ ║
╠═══════════════╬════════════╬══╣
║ 137 ║ 212 ║ ║
║ 107 ║ 241 ║ ║
║ 132 ║ 215 ║ ║
║ 135 ║ 225 ║ ║
║ 115 ║ 250 ║ ║
║ 103 ║ 241 ║ ║
║ 102 ║ 237 ║ ║
║ 65 ║ 282 ║ ║
║ 149 ║ 206 ║ ║
║ 85 ║ 246 ║ ║
║ 173 ║ 194 ║ ║
║ 124 ║ 241 ║ ║
║ 157 ║ 196 ║ ║
║ 184 ║ 193 ║ ║
║ 112 ║ 224 ║ ║
║ 80 ║ 257 ║ ║
║ 165 ║ 200 ║ ║
║ 160 ║ 190 ║ ║
║ 157 ║ 208 ║ ║
║ 119 ║ 224 ║ ║
╚═══════════════╩════════════╩══╝
Спочатку я зроблю розсіювач для візуалізації даних:
Тому я можу обчислити r, R 2 та залишкове стандартне відхилення.
Перший кореляційний тест:
Pearson's product-moment correlation
data: X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9770972 -0.8560421
sample estimates:
cor
-0.9417954
по-друге, підсумок лінії регресії:
Residuals:
Min 1Q Median 3Q Max
-11.666 -6.346 -1.439 5.049 16.496
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 316.37619 7.99950 39.55 < 2e-16 ***
X -0.72063 0.06063 -11.88 5.89e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared: 0.887, Adjusted R-squared: 0.8807
F-statistic: 141.3 on 1 and 18 DF, p-value: 5.889e-10
Отже, виходячи з цього тесту: r = -0.9417954
, R-квадрат: 0.887
та Залишкова стандартна помилка: 8.619
Що ці значення говорять нам про набір даних? (див. питання )