Про що свідчить лінійна регресія, що говорить F-статистика, R-квадрат та залишкова стандартна помилка?


14

Я дуже заплутаний у різниці значень щодо контексту лінійної регресії таких термінів:

  • F статистика
  • R квадрат
  • Залишкова стандартна помилка

Я знайшов цей веб-сайт, який дав мені велике розуміння в різних термінах, що беруть участь у лінійній регресії, однак терміни, згадані вище, виглядають досить багато (наскільки я розумію). Я цитую те, що я прочитав і що мене бентежило:

Залишкова стандартна помилка - це показник якості лінійної регресії, що відповідає ....... Залишкова стандартна помилка - це середня сума, на яку відповідь (dist) буде відхилятися від справжньої лінії регресії.

1. Це, власне, середня відстань спостережуваних значень від lm-лінії?

Статистика R-квадрата забезпечує міру того, наскільки модель відповідає вмісту фактичних даних.

2. Тепер я заплутався, тому що якщо RSE повідомляє нам, наскільки наші спостережувані точки відхиляються від лінії регресії, то низький показник RSE насправді говорить нам, "ваша модель добре підходить на основі спостережуваних точок даних" -> таким чином, наскільки хороша наша моделей підходить, тож у чому різниця між R квадратом та RSE?

F-статистика є хорошим показником того, чи існує взаємозв'язок між нашим прогнозом і змінними відповідей.

3. Чи правда, що ми можемо мати значення F, що вказує на міцний зв'язок, який є НЕ ЛІНІЙНИМ, щоб наш RSE був високим, а наш R квадрат низьким.


Q 3 Fvalue не вказує на нелінійну залежність. Це співвідношення, яке вказує, чи існує суттєвий (постійний) зв’язок між двома змінними - залежною та незалежною.
Subhash C.

Це не говорить нам про характер відносин - нелінійних чи лінійних.
Subhash C.

Відповіді:


12

Найкращий спосіб зрозуміти ці терміни - це обчислення регресії вручну. Я написав дві тісно пов'язані відповіді ( тут і тут ), однак вони можуть не повністю допомогти вам зрозуміти ваш конкретний випадок. Але прочитайте їх все-таки. Можливо, вони також допоможуть вам краще зрозуміти ці терміни.

R2R2RSE

  1. SStotal
  2. SSresidual
  3. SSmodel

Кожен з них оцінює, наскільки добре модель описує дані та чи є сума квадратичних відстаней від точок даних до встановленої моделі (проілюстрована червоними лініями на графіку нижче).

SStotalcars

введіть тут опис зображення

SSresidual

введіть тут опис зображення

SSmodelSStotalSSresidual

введіть тут опис зображення

Щоб відповісти на ваші запитання, давайте спочатку обчислимо ті терміни, які ви хочете зрозуміти, починаючи з моделі та результату як орієнтир:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

Суми квадратів - це відстані у квадраті окремих точок даних до моделі:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

Середні квадрати - це суми квадратів, усереднені за ступенями свободи:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

Мої відповіді на ваші запитання:

Q1:

  1. Таким чином, це насправді середня відстань спостережуваних значень від lm-лінії?

RSEMSresidual

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  

SSresidualMSresidual SSresidualRSEпредставляє середню відстань спостережуваних даних від моделі. Інтуїтивно це також має ідеальний сенс, оскільки якщо відстань менша, то ваша модель також підходить.

Q2:

  1. Тепер я заплутався, тому що якщо RSE повідомляє нам, наскільки наші спостережувані точки відхиляються від лінії регресії, низький показник RSE насправді говорить нам, "ваша модель добре підходить на основі спостережуваних точок даних" -> таким чином, наскільки добре підходять наші моделі , то в чому різниця між R квадратом і RSE?

R2SSmodelSStotal

# R squared
r.sq <- ss.model/ss.total
r.sq

R2SStotalSSmodel

RSER2RSE

R2

Q3:

  1. Це правда, що у нас може бути значення F, що вказує на міцний зв'язок, який є НЕ ЛІНІЙНИМ, щоб наш RSE був високим, а наш R квадрат низьким

FMSmodelMSresidual

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 

F

Ваше третє питання трохи важко зрозуміти, але я погоджуюся з цитатою, яку ви надали.


3

(2) Ви правильно це розумієте, вам просто важко з концепцією.

R2

R2


0

Просто доповнити те, що відповів Кріс вище:

F-статистика - це поділ середнього модельного квадрата та середнього залишкового квадрата. Програмне забезпечення типу Stata після встановлення регресійної моделі також надає значення p, пов'язане з F-статистикою. Це дозволяє перевірити нульову гіпотезу про те, що коефіцієнти вашої моделі дорівнюють нулю. Ви могли б подумати про це як про "статистичну значимість моделі в цілому".

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.