тестування логістичних коефіцієнтів регресії з використанням


12

Короткий зміст: Чи існує яка-небудь статистична теорія, яка б підтримувала використання -розподілу (зі ступенями свободи на основі залишкового відхилення) для тестів коефіцієнтів логістичної регресії, а не стандартного нормального розподілу?t


Деякий час тому я виявив, що при встановленні логістичної регресійної моделі в SAS PROC GLIMMIX, за замовчуванням, коефіцієнти логістичної регресії перевіряються з використанням розподілу а не стандартного нормального розподілу. 1 Тобто, GLIMMIX повідомляє стовпець з співвідношенням β 1 / t1 (який я буду називатигв решті частини цього питання), але і повідомляє стовпець «ступенів свободи», а такожр-значеннязаснований на припущеннітрозподілу длягз ступенями свободи виходячи із залишкового відхилення - тобто ступенів свободи = загальна кількість спостережень мінус кількість параметрів. У нижній частині цього питання я надаю деякий код та вихід у R та SAS для демонстрації та порівняння. 2β^1/var(β^1)zptz2

Це збентежило мене, оскільки я вважав, що для узагальнених лінійних моделей, таких як логістична регресія, не існує статистичної теорії, яка б підтримувала використання розподілу в цьому випадку. Натомість я подумав, що ми знаємо про цей випадокt

  • нормально розподілений;z
  • це приблизне значення може бути поганим для малих розмірів вибірки;
  • проте не можна припустити, що має розподіл t, як ми можемо припустити у випадку нормальної регресії.zt

zttt

  1. zt
  2. t

Загалом, чи існує якась реальна підтримка того, що GLIMMIX робить тут, крім інтуїції, що це, мабуть, в основному розумне?

R код:

summary(glm(y ~ x, data=dat, family=binomial))

R вихід:

Call:
glm(formula = y ~ x, family = binomial, data = dat)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.352  -1.243   1.025   1.068   1.156  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.22800    0.06725   3.390 0.000698 ***
x           -0.17966    0.10841  -1.657 0.097462 .  
---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1235.6  on 899  degrees of freedom
Residual deviance: 1232.9  on 898  degrees of freedom
AIC: 1236.9

Number of Fisher Scoring iterations: 4

Код SAS:

proc glimmix data=logitDat;
    model y(event='1') = x / dist=binomial solution;
run;

Вихід SAS (відредагований / скорочений):

The GLIMMIX Procedure

               Fit Statistics

-2 Log Likelihood            1232.87
AIC  (smaller is better)     1236.87
AICC (smaller is better)     1236.88
BIC  (smaller is better)     1246.47
CAIC (smaller is better)     1248.47
HQIC (smaller is better)     1240.54
Pearson Chi-Square            900.08
Pearson Chi-Square / DF         1.00


                       Parameter Estimates

                         Standard
Effect       Estimate       Error       DF    t Value    Pr > |t|

Intercept      0.2280     0.06725      898       3.39      0.0007
x             -0.1797      0.1084      898      -1.66      0.0978

1

2n


PROC LOGISTICz

1
Здається, SPSS тестує логістичні моделі змішаних ефектів таким же чином :(
Річард Бордер,

Відповіді:


6

Чи є насправді статистична теорія, яка показує, що z насправді слідує при розподілі у випадку логістичної регресії та / або інших узагальнених лінійних моделей?

Наскільки мені відомо, такої теорії не існує. Я регулярно бачу хвилеподібні аргументи і періодично моделюю експерименти, щоб підтримати такий підхід для якоїсь конкретної сім'ї GLM. Моделювання більш переконливі, ніж рукописні аргументи.

Якщо такої теорії немає, чи існують принаймні документи, які свідчать про те, що припущення щодо розподілу таким чином працює так само добре, а може, навіть краще, ніж при нормальному розподілі?

Не те, що я пам’ятаю, бачила, але це не дуже говорить.

Мої власні (обмежені) малі вибіркові симуляції дозволяють припустити, що t-розподіл у логістичному випадку може бути значно гіршим, ніж припускати нормальне:

введіть тут опис зображення

Ось, наприклад, наведені результати (як графіки QQ) 10000 моделювання статистики Wald для звичайної логістичної регресії (тобто фіксованих ефектів, не змішаних) на 15 одинакових x-спостереженнях, де параметри сукупності були нульовими. Червона лінія - це лінія y = x. Як бачите, у кожному випадку норма є досить непоганим наближенням до хорошого діапазону в середині - приблизно до 5-го та 95-го відсотків (1,6-1,7ш), а потім поза тим, що фактичний розподіл тестової статистики становить істотно легший хвіст, ніж звичайний.

Так що для логістичного випадку я б сказав, що будь-який аргумент використовувати t-, а не z-, мабуть, на цій основі навряд чи вдасться, оскільки такі симуляції, як правило, дозволяють припустити, що результати можуть лежати на більш легких хвостах сторона нормальної, а не важча хвоста.

[Однак я рекомендую не довіряти моїм моделюванням далі, ніж як попередження, щоб остерігатися - спробуйте деякі свої, можливо, для обставин, більш репрезентативних для ваших власних ситуацій, типових для ваших ІВ та моделей (звичайно, вам потрібно імітувати випадок, коли якийсь null є правдивим, щоб побачити, який розподіл використовувати під null). Мені буде цікаво почути, як вони виходять для вас.]


1
t

4

Ось кілька додаткових симуляцій, щоб трохи розширити те, що Glen_b вже представив.

[1,1]N=10,20,40,80p=0.5,0.731,0.881,0.952

ztdf=N2z=0p=1QQsim

ptppHistSim

t


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.