Чи слід застосовувати виправлення ступенів свободи для висновку про параметри GLM?


11

Це питання натхнене відповіді Мартійна тут .

Припустимо, ми підходимо до ГЛМ для одного сімейства параметрів, як біноміальна чи пуассонова модель, і що це повна ймовірність процедури (на відміну від сказати, квазіпоассон). Тоді дисперсія є функцією середнього. З двочленом: і з Пуассоном .var[X]=E[X]E[1X]var[X]=E[X]

На відміну від лінійної регресії, коли залишки нормально розподілені, кінцевий, точний розподіл вибірки цих коефіцієнтів не відомий, це можливо складна комбінація результатів та коваріатів. Також, використовуючи оцінку середньої оцінки GLM , яка буде використана як оцінка додатків для дисперсії результату.

Однак, як і лінійна регресія, коефіцієнти мають нормальне асимптотичне розподіл, і тому в кінцевому висновку вибірки ми можемо наблизити їх розподіл вибірки до нормальної кривої.

Моє запитання: чи отримуємо ми щось, використовуючи наближення розподілу Т до розподілу вибірок коефіцієнтів у кінцевих вибірках? З одного боку, ми знаємо дисперсію, але ми не знаємо точного розподілу, тому наближення T здається невірним вибором, коли завантажувальний інструмент або оцінювач jackknife могли належним чином пояснити ці розбіжності. З іншого боку, можливо, незначний консерватизм розподілу Т просто віддається перевазі на практиці.


1
Гарне питання. Можливо, ви захочете переглянути виправлення Бартлетта .
Бен Болкер

1
Я думаю, що це питання погано поставлене, коли при використанні MLE або QMLE у вас є лише асимптотично обґрунтована оцінка та умовивод. запитаючи, чи припущення A або B краще в кінцевих налаштуваннях, не можна відповісти, воно завжди доводиться до щоденного, "залежить від даних і які припущення ви готові зробити". Особисто мені подобається завантажувати, і я використовую його, коли можу, але не більше помиляється, що використання стандартного тесту на основі z чи t - це не дозволяє вам уникнути проблеми з невеликими даними, і тому ви все ще робите припущення (просто різні )
Репмат

Відповіді:


3

Коротка відповідь: Ще не повний відповідь, але вас можуть зацікавити наступні розподіли, пов’язані із пов'язаним питанням: Він порівнює z-test (як також використовується glm) та t-test

    layout(matrix(1:2,1,byrow=TRUE))

    # trying all 100 possible outcomes if the true value is p=0.7
    px <- dbinom(0:100,100,0.7)
    p_model = rep(0,101)
    p_model2 = rep(0,101)
    for (i in 0:100) {
      xi = c(rep(1,i),rep(0,100-i))
      model = glm(xi ~ 1, offset=rep(qlogis(0.7),100), family="binomial")
      p_model[i+1] = 1-summary(model)$coefficients[4]
      model2 <- glm(xi ~ 1, family = "binomial")
      coef <- summary(model2)$coefficients
      p_model2[i+1] = 1-2*pt(-abs((qlogis(0.7)-coef[1])/coef[2]),99,ncp=0)
    }


    # plotting cumulative distribution of outcomes z-test
    outcomes <- p_model[order(p_model)]
    cdf <- cumsum(px[order(p_model)])
    plot(1-outcomes,1-cdf, 
         ylab="cumulative probability", 
         xlab= "calculated glm p-value",
         xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
    lines(c(0.00001,1),c(0.00001,1))
    for (i in 1:100) {
      lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
    #  lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
    }

    title("probability for rejection with z-test \n as function of set alpha level")


    # plotting cumulative distribution of outcomes t-test
    outcomes <- p_model2[order(p_model2)]
    cdf <- cumsum(px[order(p_model2)])
    plot(1-outcomes,1-cdf, 
         ylab="cumulative probability", 
         xlab= "calculated glm p-value",
         xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
    lines(c(0.00001,1),c(0.00001,1))
    for (i in 1:100) {
      lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
      #  lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
    }

    title("probability for rejection with t-test \n as function of set alpha level")
    [![p-test vs t-test][1]][1]

І є лише невелика різниця. А також z-тест насправді кращий (але це може бути тому, що і t-test, і z-тест "неправильні" і, можливо, помилка z-тесту компенсує цю помилку).

введіть тут опис зображення

Довга відповідь: ...

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.