використання ваг у svyglm vs glm


18

Мені хотілося б знати, чим відрізняється обробка ваг між svyglmіglm

Я використовую twangпакет в R, щоб створити показники схильності, які потім використовуються як ваги, наступним чином (цей код походить з twangдокументації):

library(twang)
library(survey)
set.seed(1)

data(lalonde)

ps.lalonde <- ps(treat ~ age + educ + black + hispan + nodegree + married + re74 + re75,
 data = lalonde)

lalonde$w <- get.weights(ps.lalonde, stop.method="es.mean")
design.ps <- svydesign(ids=~1, weights=~w, data=lalonde)

glm1 <- svyglm(re78 ~ treat, design=design.ps)

summary(glm1)

...
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   6685.2      374.4  17.853   <2e-16 ***
treat         -432.4      753.0  -0.574    0.566    

Порівняйте це з:

glm11 <- glm(re78 ~ treat, weights=w , data=lalonde)
summary(glm11)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   6685.2      362.5  18.441   <2e-16 ***
treat         -432.4      586.1  -0.738    0.461  

Таким чином, оцінки параметрів однакові, але стандартні помилки для лікування зовсім інші.

Як відрізняється обробка ваг між svyglmі glm?

Відповіді:


11

Існує маса різного роду ваг, і вони стають дещо заплутаними. Ви повинні бути дуже обережними, коли ви використовуєте різні функції або програмне забезпечення, яке використовуєте те ваги, які ви думаєте, що використовуєте.

Функція svyglm використовує обстежувальні ваги - ці значення мають значення кожного випадку, щоб зробити їх репрезентативними (один для одного, після розпушування). Я не впевнений, яка вага у glm () - я думаю, що вони представляють точність заходів. (Якщо ви використовуєте двочленну сім'ю, вони мають різний зміст).

Ваги опитування (в Surgglm) - це ваги, які ви хочете, щоб отримати правильні стандартні помилки.

(Є також частотні ваги, аналітичні ваги та ваги важливості).


(+1) дякую чи знаєте ви доступну посилання на ваги опитування, крім документів для surveyglm)?
Джо Кінг

1
Мені подобається книга Лумлі: amazon.com/Complex-Surveys-Analysis-Series-Methodology/dp/…
Джеремі Майлз

1
Дякую за довідку., Під доступним я мав на увазі щось доступне в Інтернеті, вибачте. Я не маю легкого доступу до хороших бібліотек ....
Джо Кінг,

Гммм ... я не пригадую, щоб щось натрапило, але я побачу, що можу знайти.
Джеремі Майлз

9

surveyобчислює стандартні похибки з урахуванням втрати точності, введених при вибірці ваг. Ваги glmпросто відрегулюють вагу, подану на помилки при оцінці найменших квадратів, тому стандартні помилки не є правильними. Ось вибір від Lumley (2010):

У аналізі на основі моделі потрібно було б правильно вказати випадкову частину моделі, щоб отримати правильні стандартні помилки, але всі наші стандартні оцінки помилок базуються на дизайні і тому дійсні незалежно від моделі. Варто зазначити, що стандартні помилки "сендвіч", або "модель-надійний", або "відповідність гетерокедастичності", які іноді використовуються при модельному регресійному аналізі, майже ідентичні стандартним помилкам на основі дизайну, які ми будемо використовувати; основна відмінність полягає в обробці стратифікації.

Таким чином, без прошарків у вашому дизайні, ви, ймовірно, виявите, що за допомогою sandwichви отримаєте однакові або майже однакові оцінки SE.

library(sandwich)
coefs <- vcovHC(glm11, type="HC0")
lmtest::coeftest(glm11,coefs)

У моєму тесті вони не вирахували точно при використанні "HC0" або "HC1", але були дуже близькими. svyglmтепер також повідомляє z-значення замість t-значення.


2
Якщо корисно для читача майбутнього: coeftestвід R пакета lmtest.
swihart
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.