Інтерпретація виходу lm () R '


234

Сторінки довідки в R припускають, що я знаю, що означають ці цифри, але я не знаю. Я намагаюся по-справжньому інтуїтивно зрозуміти кожне число тут. Я просто опублікую висновок і прокоментую те, що я дізнався. Можуть бути (будуть) помилки, оскільки я просто напишу те, що припускаю. В основному я хотів би знати, що означає значення t у коефіцієнтах, і чому вони друкують залишкову стандартну помилку.

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

Це 5-кратний підсумок залишків (їх середнє значення завжди дорівнює 0, правда?). Цифри можна використовувати (я думаю, тут), щоб швидко побачити, чи є якісь великі люди. Також тут ви вже можете бачити, якщо залишки далекі від нормального розподілу (вони повинні бути нормально розподілені).

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Оцінки , обчислені регресією найменших квадратів. Також стандартною помилкою є . Я хотів би знати, як це обчислюється. Я поняття не маю, звідки беруться t-значення та відповідне значення p. Я знаю, має бути нормально розподілений, але як обчислюється значення t? сгβя ββi^σβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

1npϵTϵ , я думаю. Але чому ми це обчислюємо, і що це нам говорить?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

n i = 1 ( ^ y i - ˉ y )2R2=sy^2sy2 , що є . Коефіцієнт близький до 1, якщо точки лежать на прямій, і 0, якщо вони випадкові. Що таке скоригований R-квадрат?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

F і p для всієї моделі, не тільки для одиночних s, як і раніше. Значення F - . Чим більше він росте, тим більше малоймовірно, що взагалі не має жодного ефекту.їв 2 уβi βsy^2ϵiβ


залишки не так сильно відхиляються від нормальності, чому ви так вважаєте?
nico

@nico: Я думаю, що @Alexx Hardt говорив гіпотетично. Тобто один раз можна було скористатися підсумком п'яти чисел, щоб побачити, чи відхиляються залишки від нормальних
Гевін Сімпсон,

@Gavin Simpson: ти маєш рацію, я неправильно прочитав вирок. Ігноруйте мій попередній коментар.
nico

9
Незначна каламбур: Ви не можете нічого сказати про нормальність чи ненормальність, що базується лише на цих 5 квантолах. Все, що ви можете сказати на основі цього резюме, - це те, чи оцінюються залишки приблизно симетричні навколо нуля. Ви можете розділити повідомлені кванти на оціночну залишкову стандартну помилку і порівняти ці значення з відповідними квантовими числами N (0,1), але дивитися на QQ-графік, мабуть, має більше сенсу.
фабі

5
Одне зауваження тут: модель не є , скоріше це . описується правильно у відповіді нижче, але в ньому прямо не зазначається, що він неправильно характеризується у питанні, тому хтось може не помітити розбіжності. FSSmodel/SSerrorMSmodel/MSerrorF
gung

Відповіді:


202

П'ять бальних резюме

так, ідея полягає в тому, щоб дати короткий підсумок розподілу. Він повинен бути приблизно симетричним щодо середнього, медіана повинна бути близькою до 0, значення 1Q і 3Q в ідеалі повинні бути приблизно подібними.

Коефіцієнти таβi^s

Кожен коефіцієнт у моделі - гауссова (нормальна) випадкова величина. є оцінкою середнього розподілу цієї випадкової величини, і стандартна помилка є квадратний корінь з дисперсії цього розподілу. Це міра невизначеності в оцінці .βi^βi^

Ви можете подивитися, як вони обчислюються (добре, що використовуються математичні формули) у Вікіпедії . Зауважте, що будь-яка поважаюча себе програма статистики не буде використовувати стандартні математичні рівняння для обчислення оскільки виконання їх на комп'ютері може призвести до великої втрати точності в обчисленнях.βi^

t -статистика

У статистичні оцінки ( ) ділиться на їх стандартні помилки ( ), наприклад . Якщо припустити, що у вас є та сама модель в об'єкті, що і ваш Q:tβi^σi^ti=βi^σi^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

тоді звіти значень R обчислюються як:t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

Де coef(mod)знаходяться і дає квадратні корені діагональних елементів коваріаційної матриці параметрів моделі, які є стандартними помилками параметрів ( ).βi^sqrt(diag(vcov(mod)))σi^

Значення р - це ймовірність досягнення aна величину або більше, ніж спостережуване абсолютне значення t, якщо нульова гіпотеза ( ) була правдою, де - . Вони обчислюються як (використовуючи зверху):|t|H0H0βi=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

Тож ми обчислюємо верхню вірогідну ймовірність досягнення значень ми зробили з розподілу зі ступенями свободи, рівними залишковим ступеням свободи моделі. Це представляє ймовірність досягнення величини більше, ніж абсолютні значення спостережуваних s. Він помножується на 2, оскільки звичайно може бути великим і в негативному напрямку.ttttt

Залишкова стандартна помилка

Залишкова стандартна помилка - це оцінка параметра . Припущення у звичайних найменших квадратах полягає в тому, що залишки описуються індивідуально гауссовим (нормальним) розподілом із середнім значенням 0 та стандартним відхиленням . відноситься до постійної дисперсії припущення; кожен залишок має однакову дисперсію і ця дисперсія дорівнює .σσσσ2

РегульованийR2

Відрегульований обчислюється як:R2

1(1R2)n1np1

Відрегульований - це те саме, що і , але скоригований на складність (тобто кількість параметрів) моделі. Враховуючи модель з одним параметром, з певним , якщо до цієї моделі додати ще один параметр, нової моделі має збільшуватися, навіть якщо доданий параметр не має статистичної потужності. Коригуваний пояснює це, включаючи кількість параметрів у модель.R2R2R2R2R2

F -статистичний

являє собою відношення двох дисперсій ( ), дисперсія пояснюється параметрами в моделі (сума квадратів регресії, SSR) і залишкова дисперсією або незрозумілою (сума квадратів помилок, SSE). Ви можете побачити це краще, якщо ми отримаємо таблицю ANOVA для моделі за допомогою :FSSR/SSEanova()

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Значення s однакові у виході та виході ANOVA . Стовпець містить дві дисперсії і . Ми можемо обчислити ймовірність досягнення величини за нульовою гіпотезою про відсутність ефекту з розподілу з 1 та 148 градусами свободи. Про це повідомляється у заключній колонці таблиці ANOVA. У простому випадку одинарного безперервного предиктора (згідно з вашим прикладом) , тому значення p однакові. Ця еквівалентність справедлива лише в цьому простому випадку.F3,7945 / 0,1656 = 22,91 Р Р Р = т 2 Р е т в л . Ш і д т чsummary(mod)Mean Sq3.7945/0.1656=22.91FFF=tPetal.Width2


5
@Gavin (+1) Чудова відповідь із приємними ілюстраціями!
chl

2
Хороша робота. Ви можете уточнити одне, що стосується обчислення значень t: sqrt (diag (vcov (mod))) виробляє SE оцінок. Це ті самі ПЕ, які виводяться у зведенні моделі. Простіше і зрозуміліше просто сказати, що t = Оцінка / Оцінка. У цьому сенсі будь-яке інше значення t не відрізняється.
Бретт

2
Ft2

2
@Jay; Дякую. Я думав також згадати цю еквівалентність. Не був певен, чи це занадто багато деталей чи ні? Я оголошу щось з цього приводу.
Гевін Сімпсон

2
"не використовуватиме стандартні математичні рівняння для обчислення" Що вони використовуватимуть?
SmallChess

0

Ронен Ізраїль та Адрієна Росс (AQR) написали дуже приємний документ на цю тему: Вимірювання експозиції факторів: використання та зловживання .

Підсумувати (див. Стор. 8),

  • R2
  • Коли t-статистика більша за дві, ми можемо з 95% впевненістю сказати (або з 5% шансом помилитися), що бета-оцінка статистично відрізняється від нуля. Іншими словами, ми можемо сказати, що портфель має значний вплив на якийсь фактор.

lm()Підсумок R обчислює значення р Pr(>|t|). Чим менше р-значення, тим значнішим є коефіцієнт. P-значення = 0,05 - розумний поріг.


6
Види хибних тверджень у цій роботі, на прикладі "Коли t-статистика більша за дві, ми можемо сказати (з ... 5% шансом, що ми помиляємось), що бета-оцінка статистично відрізняється від нуля" [в p . 11], обговорюються на stats.stackexchange.com/questions/311763 та stats.stackexchange.com/questions/26450 .
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.