R-квадрат у лінійній моделі віршів відхилення в узагальненій лінійній моделі?


14

Ось мій контекст щодо цього питання: З того, що я можу сказати, ми не можемо виконати звичайну регресію найменших квадратів у R при використанні зважених даних та surveyпакету. Тут ми маємо використовувати svyglm(), яка замість цього виконує узагальнену лінійну модель (яка може бути одне і те саме? Я тут нечіткий з точки зору того, що відрізняється).

В OLS і за допомогою lm()функції він обчислює значення R-квадрата, інтерпретацію якого я розумію. Однак, svyglm()схоже , це не обчислює, і натомість дає мені Девіант, який, як розповідає мені моя коротка поїздка в Інтернеті, є мірою корисності, яка тлумачиться інакше, ніж R-квадрат.

Тому я думаю, що у мене є два питання, на які я сподівався отримати певний напрямок:

  1. Чому ми не можемо запустити OLS в surveyпакеті, хоча здається, що це можливо зробити із зваженими даними в Stata?
  2. Чим відрізняється інтерпретація між відхиленням узагальненої лінійної моделі та значенням r-квадрата?

2
Ласкаво просимо на сайт, @RichardBlissett, +1 за гарне запитання. Регресія OLS - це окремий випадок узагальненої лінійної моделі, де функцією зв’язку є функція ідентичності, а розподіл відповіді є нормальним (див. Мою відповідь тут: моделі відмінностей між-logit-і-probit , для отримання додаткової інформації). Для GLiM є "псевдо-R2", але вони суперечливі (див. Тут: який-псевдо-r2-звітувати-для-логістичної-регресії , для отримання додаткової інформації).
gung - Відновіть Моніку

1
Велике спасибі за ваш коментар (і вибачте, що мені знадобилося так довго, щоб я відповів ... Я втратив це питання і зовсім забув, що не ставив його на ТАК). Це була дивовижна пара пояснень, дякую. Я здогадуюсь, моє запитання таке: я припускаю, що ці статистичні пакети не виконують OLS, тому що існує якась принципова проблема із виконанням цього з даними, зваженими на опитування. Я, здається, не можу зрозуміти, що це за проблема.
RickyB

1
Відхилення - це узагальнення дисперсії, а очікуване відхилення - узагальнення R-квадрата. Проблема полягає в тому, що, здається, не існує простої або загальної відповіді на очікуване відхилення, дивіться, наприклад, тут: stats.stackexchange.com/questions/124306/…
nukimov

Відповіді:


2

З того, що я можу сказати, ми не можемо виконати звичайну регресію найменших квадратів у R при використанні зважених даних та surveyпакету. Тут ми повинні використовувати svyglm(), яка замість цього виконує узагальнену лінійну модель (яка може бути одне і те ж? Я тут нечіткий з точки зору того, що відрізняється).

svyglmдасть вам лінійну модель, якщо ви використовуєте, family = gaussian()яка, здається, є типовою для віньєтки для опитування (у версії 3.32-1). Дивіться приклад, де вони знаходять regmodel.

Здається, що пакет просто гарантує, що ви використовуєте правильну вагу, коли він дзвонить glm. Таким чином, якщо ваш результат є безперервним, і ви припускаєте, що він зазвичай розподілений, тоді вам слід скористатися family = gaussian(). Результат - зважена лінійна модель. Ця відповідь

Чому ми не можемо запустити OLS в surveyпакеті, хоча здається, що це можливо зробити із зваженими даними в Stata?

заявивши, що ви дійсно можете це зробити з surveyпакетом. Щодо наступного питання

Чим відрізняється інтерпретація між відхиленням узагальненої лінійної моделі та значенням r-квадрата?

R2family = gaussian()

> set.seed(42293888)
> x <- (-4):5
> y <- 2 + x + rnorm(length(x))
> org <- data.frame(x = x, y = y, weights = 1:10)
> 
> # show data and fit model. Notice the R-squared
> head(org) 
   x          y weights
1 -4  0.4963671       1
2 -3 -0.5675720       2
3 -2 -0.3615302       3
4 -1  0.7091697       4
5  0  0.6485203       5
6  1  3.8495979       6
> summary(lm(y ~ x, org, weights = weights))

Call:
lm(formula = y ~ x, data = org, weights = weights)

Weighted Residuals:
    Min      1Q  Median      3Q     Max 
-3.1693 -0.4463  0.2017  0.9100  2.9667 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   1.7368     0.3514   4.942  0.00113 ** 
x             0.9016     0.1111   8.113 3.95e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 2.019 on 8 degrees of freedom
Multiple R-squared:  0.8916,    Adjusted R-squared:  0.8781 
F-statistic: 65.83 on 1 and 8 DF,  p-value: 3.946e-05

> 
> # make redundant data set with redundant rows
> idx <- unlist(mapply(rep, x = 1:nrow(org), times = org$weights))
> org_redundant <- org[idx, ]
> head(org_redundant)
     x          y weights
1   -4  0.4963671       1
2   -3 -0.5675720       2
2.1 -3 -0.5675720       2
3   -2 -0.3615302       3
3.1 -2 -0.3615302       3
3.2 -2 -0.3615302       3
> 
> # fit model and notice the same R-squared
> summary(lm(y ~ x, org_redundant))

Call:
lm(formula = y ~ x, data = org_redundant)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.19789 -0.29506 -0.05435  0.33131  2.36610 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.73680    0.13653   12.72   <2e-16 ***
x            0.90163    0.04318   20.88   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 0.7843 on 53 degrees of freedom
Multiple R-squared:  0.8916,    Adjusted R-squared:  0.8896 
F-statistic: 436.1 on 1 and 53 DF,  p-value: < 2.2e-16

> 
> # glm gives you the same with family = gaussian()  
> # just compute the R^2 from the deviances. See 
> #   /stats//a/46358/81865
> fit <- glm(y ~ x, family = gaussian(), org_redundant)
> fit$coefficients
(Intercept)           x 
  1.7368017   0.9016347 
> 1 - fit$deviance / fit$null.deviance
[1] 0.8916387

Відхилення - це лише сума квадратних помилок при використанні family = gaussian().

Коваджі

Я припускаю, що ви хочете лінійну модель зі свого питання. Далі я ніколи не використовував surveyпакунок, але швидко просканував його і зробив припущення про те, що він робить, про що я заявляю у своїй відповіді.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.