Тест Вальда на логістичну регресію


55

Наскільки я розумію, тест Уолда в контексті логістичної регресії використовується для визначення того, чи є певна змінна прогнозова значення значною чи ні. Він відкидає нульову гіпотезу, що відповідний коефіцієнт дорівнює нулю.X

Тест складається з ділення значення коефіцієнта на стандартну похибку .σ

Мене бентежить те, що також відомий як Z-оцінка і вказує, наскільки ймовірно, що дане спостереження відбувається з нормального розподілу (із середнім нулем).X/σ



2
Можливо, це може бути навпаки, оскільки відповідь у цьому більш розвинений.
Firebug

Відповіді:


86

Оцінки коефіцієнтів та перехоплення в логістичній регресії (і будь-якій ГЛМ) знаходять за допомогою оцінки максимальної ймовірності (MLE). Ці оцінки позначені з капелюхом над параметрами, що - щось на зразок & thetas . Наш цікавий параметр позначається θ 0, і це зазвичай 0, оскільки ми хочемо перевірити, чи відрізняється коефіцієнт від 0 чи ні. З асимптотичної теорії ОМПА, ми знаємо , що різниця між θ і & thetas 0 буде приблизно нормально розподілені із середнім значенням 0 (подробиці можна знайти в будь-якому математичної статистики книги , такі як Ларрі Вассерман Всіх статистиків ). Нагадаємо, що стандартні помилки - це не що інше, якθ^θ0θ^θ0стандартні відхилення статистики (Сокал і Рольф пишуть у своїй книзі " Біометрія" : " статистика - це будь-яка з багатьох обчислених або оцінених статистичних величин", наприклад, середнє значення, медіана, стандартне відхилення, коефіцієнт кореляції, коефіцієнт регресії, ...). Розділення нормального розподілу на середнє значення 0 та стандартне відхилення на його стандартне відхилення дасть стандартне нормальне розподіл із середнім значенням 0 та стандартним відхиленням 1. Статистику Уолда визначають як (наприклад, Wasserman (2006): Вся статистика , стор. 153, 214 -215): W = ( β - β 0 )σ або W2=(β-β0)2

W=(β^β0)se^(β^)N(0,1)
Друга форма випливає з того фактущо квадрат стандартного нормального розподілу єχ21-розподіл з 1 ступенем свободи (сума двох квадратів стандартних нормальні розподілу будеχ22-розподіл з 2 ступенями свободи тощо.
W2=(β^β0)2Var^(β^)χ12
χ12χ22

β0=0

W=β^se^(β^)N(0,1)

zt

ztzptzVar[β^|X]=σ2(XX)1σ2Xσ2σ^2=s2se^(βj^)=s2(XX)jj1tt

YBin(n,p)E(Y)=npVar(Y)=np(1p)ϕϕ=1ϕ<1ϕ>1ztp-цінки. В R, подивіться на цих двох прикладах:

Логістична регресія

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

z


Нормальна лінійна регресія (OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

tzt

Ще один пов’язаний пост можна знайти тут .


1
Дуже дякую за цей приємний пост, який відповідає на всі мої запитання.
користувач695652

1
Отже, практично щодо першої частини вашої чудової відповіді: Якщо я з якихось причин мав би як вихід коефіцієнт шансів і статистику Wald, я міг би вирахувати стандартну помилку з них як: SE = (1 / Wald- статистика) * ln (АБО) Це правильно? Дякую!
Sander W. van der Laan

1
@ SanderW.vanderLaan Дякуємо за ваш коментар Так, я вважаю, що це правильно. Якщо ви здійснюєте логістичну регресію, статистика Wald буде z-значенням.
COOLSerdash

2
Така чудова відповідь !!. У мене є деякі пропозиції щодо перегляду: я особисто відчуваю, що ця відповідь змішує деталі з перфомантами. Я б розмістив деталі того, як лінійна регресія використовує дисперсію залишків в окремому графіку.
Haitao Du

1
Також для параметра дисперсії та підключення до коду R ми можемо відкрити інший розділ або роздільну лінію для розмови.
Хайтао Ду
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.