дисперсія в резюме.glm ()


13

Я провів glm.nb о

glm1<-glm.nb(x~factor(group))

при цьому група є категоріальною, а х - метричною змінною. Коли я намагаюся отримати підсумок результатів, я отримую дещо інші результати, залежно від того, використовую summary()чи summary.glm. summary(glm1)дає мені

    ...
Coefficients:
                    Estimate Std. Error z value Pr(>|z|)  
    (Intercept)       0.1044     0.1519   0.687   0.4921  
    factor(gruppe)2   0.1580     0.2117   0.746   0.4555  
    factor(gruppe)3   0.3531     0.2085   1.693   0.0904 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 1)

Тоді як резюме.glm (glm1) дає мені

    ...
Coefficients:
                    Estimate Std. Error t value Pr(>|t|)  
    (Intercept)       0.1044     0.1481   0.705   0.4817  
    factor(gruppe)2   0.1580     0.2065   0.765   0.4447  
    factor(gruppe)3   0.3531     0.2033   1.737   0.0835 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067)

Я розумію значення параметра дисперсії, але не лінії

(Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067).

У посібнику сказано, що це була б оціночна дисперсія, але це здається поганою оцінкою, оскільки 0,95 не наближається до 0,7109, або ж розрахована дисперсія чимось відрізняється від розрахункового параметра дисперсії? Я думаю, я повинен встановити дисперсію в summary.nb(x, dispersion=)щось, але я не впевнений, якщо мені доведеться встановити дисперсію в 1 (що дасть такий же результат, як summary()і якщо я повинен вставити оцінку параметра дисперсії, У цьому випадку це призводить до summary.nb(glm1, dispersion=0.7109)чи чогось іншого? Або я добре з просто використанням summary(glm1)?


3
Використовуйте підсумок (), коли він пересилає відповідний метод S3 для класу "Небін". Дисперсія, звичайно, повинна бути 1, те, що оцінюється, є тетою, яку краще називати параметром форми, щоб уникнути плутанини. Дивіться також stats.stackexchange.com/questions/27773/how-does-glm-nb-work/…
Momo

Відповіді:


13

По-перше, ви не повинні використовувати summary.glmна об'єкті класу "negbin". Якщо ви подивитеся на код функції summary.glm, вгорі ви побачите обчислення dispersion. Зверніть увагу , що summary.glm тільки знає про моделях , які можуть бути встановлені з допомогою glmі , отже , він виділяє біноміальних і Пуассона сімей для спеціальної обробки, де дисперсія параметра є передбачається рівним 1. Для інших , ніж ці моделі, обчислюється з об'єкт моделі, але зауважте, що це засновано на припущенні, що це підходить для сім'ї, яка не є двочленною або Пуассоною. Для моделі обтягнуті IS . Отже, коли ви використовуєтеϕϕfamilyglm.nb"Negative Binomial(theta)"summary.glmдля моделі, встановленої glm.nbкодом

if (is.null(dispersion)) 
    dispersion <- if (object$family$family %in% c("poisson", 
        "binomial")) 
        1
    else if (df.r > 0) {
        est.disp <- TRUE
        if (any(object$weights == 0)) 
                warning("observations with zero weight not used for calculating dispersion")
            sum((object$weights * object$residuals^2)[object$weights > 
            0])/df.r
    }

тест для "poisson"або "binomial"не вдається, і він потім обчислює коли насправді для цієї родини за замовчуванням вважається рівним 1 (за визначенням .ϕsummary.negbin

Проблеми з цим немає, просто простіше викликати правильний метод і надати інше значення для через аргумент .ϕdispersion

По-друге, ви неправильно розумієте вихід. Коли бачиш

Negative Binomial(0.7109)

як я вже нагадав вище, число, яке цитується в дужках, - , параметр негативного біноміального розподілу. Це значення, яке оцінюється під час встановлення. Це не , параметр дисперсії, а значить, два числа не обов'язково повинні бути рівними; вони всього два числа.θ^ϕ

Оскільки обчислена дисперсія (за кодом, який я цитую вище) досить близька до однієї (~ 0,95), припущення про те, що використовується для стандартних помилок, не надто погано . Можна, звичайно, просто зробитиϕϕ=1summary.negbin

summary(glm1, dispersion = 0.9509)

і отримати додатковий результат, який negbinдає вам метод, плюс обчислене, а не припущене значення .ϕ


5
+1 Приємне пояснення. У мене є два невеликих зауваження: Параметр дисперсії у двочленному, Пуассоновому та негативному двочленному з відомим параметром форми дорівнює 1 за визначенням родини експонентів (це не припущення). Коли ви говорите, що різну дисперсію можна оцінити та подати до зведеного методу, то слід бути обережним, оскільки можна було б зайти на квазі територію, що має наслідки, особливо для ймовірності.
Момо

@Momo Добре сказано. Мене розірвало між тим, що ви заявляєте, та реквізитами довідкової сторінки щодо відповідних функцій.
Відновіть Моніку - Г. Сімпсон

2

θ1θ11θEYEμEμ

f(y)=Γ(θ+y)Γ(θ)y!μyθθ(μ+θ)θ+y

очікування

EY=μ

& дисперсія

VarY=μ+μ2θ

Як вказує @Momo, параметр дисперсії - це зовсім інша річ, яку ви можете дозволити змінювати, щоб зробити квазіімовірність оцінки. Для негативної біноміальної моделі та (справжньої) моделі Пуассона вона правильно закріплена за значенням одиниці.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.