Чи має сенс використовувати логістичну регресію з двійковим результатом та прогноктором?


18

У мене є двійкова змінна результат {0,1} і змінна прогноза {0,1}. Мої думки полягають у тому, що не має сенсу займатися логістикою, якщо я не включаю інші змінні та не підраховую коефіцієнт шансів.

З одним двійковим предиктором, чи не обчислить вірогідність, достатня проти коефіцієнта шансів?

Відповіді:


26

У цьому випадку ви можете згорнути свої дані до де S i j - кількість екземплярів для x = i і y = j з i , j { 0 , 1 } . Припустимо, загалом є n спостережень.

ХY010S00S011S10S11
Sijх=iу=ji,j{0,1}н

Якщо ми вписуємося модель (де г наша функція зв'язку) , ми знайдемо , що & beta ; 0 є логит пропорції успіхів при ї я = 0 і & beta ; 0 + β 1 являє собою логит пропорції успіхів приpi=г-1(хiТβ)=г-1(β0+β11хi=1)гβ^0хi=0β^0+β^1 . Іншими словами, β 0 = г ( S 01хi=1 і β 0+ β 1=г(S11

β^0=g(S01S00+S01)
β^0+β^1=g(S11S10+S11).

Давайте перевіримо це R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

Тож коефіцієнти логістичної регресії - це саме перетворення пропорцій, що виходять із таблиці.

Підсумок полягає в тому, що ми, безумовно, можемо проаналізувати цей набір даних за допомогою логістичної регресії, якщо у нас є дані, що надходять із серії випадкових змінних Бернуллі, але, виявляється, вони не відрізняються від прямого аналізу отриманої таблиці непередбачених ситуацій.


Yi|xiBern(pi)xipi=г-1(β0+β1хi)хipip0p1

i:хi=0Yi=S01Урни(н0,p0)
i:хi=1Yi=S11Урни(н1,p1).
хiн0н1

S01/н0=S01S00+S01pp0 і S11/н1=S11S10+S11pp1.

Yi|хi=jБерн(pj)Sj1Урни(нj,pj)


1

Якщо у вас є більше, ніж один предиктор, і всі предиктори є бінарними змінними, ви можете помістити модель за допомогою Logic Regression [1] (зауважте, що "Logic" не "Logistic"). Це корисно, коли ви вважаєте, що ефекти взаємодії між вашими прогнозами є помітними. В R ( LogicRegпакет) є реалізація .

[1] Ruczinski, I., Kooperberg, C., & LeBlanc, M. (2003). Логічна регресія. Журнал обчислювальної та графічної статистики, 12 (3), 475-511.


1
Питання стосується конкретно одного регресора, тому ваша відповідь краще послужить коментарем.
Річард Харді
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.