Короткий зміст: Чи існує яка-небудь статистична теорія, яка б підтримувала використання -розподілу (зі ступенями свободи на основі залишкового відхилення) для тестів коефіцієнтів логістичної регресії, а не стандартного нормального розподілу?
Деякий час тому я виявив, що при встановленні логістичної регресійної моделі в SAS PROC GLIMMIX, за замовчуванням, коефіцієнти логістичної регресії перевіряються з використанням розподілу а не стандартного нормального розподілу. 1 Тобто, GLIMMIX повідомляє стовпець з співвідношенням β 1 / √ (який я буду називатигв решті частини цього питання), але і повідомляє стовпець «ступенів свободи», а такожр-значеннязаснований на припущеннітрозподілу длягз ступенями свободи виходячи із залишкового відхилення - тобто ступенів свободи = загальна кількість спостережень мінус кількість параметрів. У нижній частині цього питання я надаю деякий код та вихід у R та SAS для демонстрації та порівняння. 2
Це збентежило мене, оскільки я вважав, що для узагальнених лінійних моделей, таких як логістична регресія, не існує статистичної теорії, яка б підтримувала використання розподілу в цьому випадку. Натомість я подумав, що ми знаємо про цей випадок
- нормально розподілений;
- це приблизне значення може бути поганим для малих розмірів вибірки;
- проте не можна припустити, що має розподіл t, як ми можемо припустити у випадку нормальної регресії.
Загалом, чи існує якась реальна підтримка того, що GLIMMIX робить тут, крім інтуїції, що це, мабуть, в основному розумне?
R код:
summary(glm(y ~ x, data=dat, family=binomial))
R вихід:
Call:
glm(formula = y ~ x, family = binomial, data = dat)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.352 -1.243 1.025 1.068 1.156
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.22800 0.06725 3.390 0.000698 ***
x -0.17966 0.10841 -1.657 0.097462 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1235.6 on 899 degrees of freedom
Residual deviance: 1232.9 on 898 degrees of freedom
AIC: 1236.9
Number of Fisher Scoring iterations: 4
Код SAS:
proc glimmix data=logitDat;
model y(event='1') = x / dist=binomial solution;
run;
Вихід SAS (відредагований / скорочений):
The GLIMMIX Procedure
Fit Statistics
-2 Log Likelihood 1232.87
AIC (smaller is better) 1236.87
AICC (smaller is better) 1236.88
BIC (smaller is better) 1246.47
CAIC (smaller is better) 1248.47
HQIC (smaller is better) 1240.54
Pearson Chi-Square 900.08
Pearson Chi-Square / DF 1.00
Parameter Estimates
Standard
Effect Estimate Error DF t Value Pr > |t|
Intercept 0.2280 0.06725 898 3.39 0.0007
x -0.1797 0.1084 898 -1.66 0.0978
PROC LOGISTIC