Параметр дисперсії у висновку GLM


11

Я провів glm в R, і біля нижньої частини summary()виводу, він констатує

(Dispersion parameter for gaussian family taken to be 28.35031)

Я зробив кілька розкопок в Google і дізнався, що параметр дисперсії використовується для відповідності стандартним помилкам. Я сподіваюся, що хтось міг би надати більш детальну інформацію про те, що таке параметр дисперсії та як його слід інтерпретувати?

Відповіді:


9

Один із способів дослідити це - спробувати встановити одну і ту ж модель за допомогою різних інструментів, ось один приклад:

> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)

Call:
lm(formula = Sepal.Length ~ ., data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.79424 -0.21874  0.00899  0.20255  0.73103 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673,     Adjusted R-squared: 0.8627 
F-statistic: 188.3 on 5 and 144 DF,  p-value: < 2.2e-16 

> summary(fit2)

Call:
glm(formula = Sepal.Length ~ ., data = iris)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.79424  -0.21874   0.00899   0.20255   0.73103  

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

(Dispersion parameter for gaussian family taken to be 0.09414226)

    Null deviance: 102.168  on 149  degrees of freedom
Residual deviance:  13.556  on 144  degrees of freedom
AIC: 79.116

Number of Fisher Scoring iterations: 2

> sqrt( 0.09414226 )
[1] 0.3068261

Отже, ви можете бачити, що залишкова стандартна помилка лінійної моделі - це просто квадратний корінь дисперсії від glm, іншими словами, дисперсія (для гауссових моделей) така сама, як середня квадратна помилка.


4

Розглянемо просту ситуацію, коли у ваших даних немає коваріантної інформації. Скажімо, у вас просто спостереження .Y1,Y2,,YnR

Якщо ви використовуєте звичайний розподіл для моделювання своїх даних, ви, ймовірно, це напишете

YiN(μ,σ2) ,

а потім спробуйте оцінити та , можливо, за максимальною оцінкою ймовірності.μσ

Скажімо, ваші дані - це підрахунок даних і, отже, не розповсюджується нормально. Цей випадок навіть не є безперервним, тому ви можете використовувати натомість розподіл Пуассона:

YiPoisson(λ) .

Однак у вас тут є лише один параметр! Одиничний параметр визначає як середнє, так і дисперсійне через та . Це також відбувається, коли ви використовуєте Бернуллі або біноміальне розподіл. Але у вас можуть бути великі або менші розбіжності у ваших даних, можливо, тому, що спостереження не є справді ідентичними або ж вибране вами розповсюдження було недостатньо реалістичним.λE[Yi]=λVar[Yi]=λ

Тож люди додають параметр дисперсії, щоб отримати додатковий ступінь свободи в моделюванні середнього та дисперсії одночасно. Я думаю, що будь-який підручник з GLM дасть вам більш детальне та математичне пояснення, що це таке, але мотивація, я вважаю, досить проста.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.