У цьому випадку ви можете згорнути свої дані до
де S i j - кількість екземплярів для x = i і y = j з i , j ∈ { 0 , 1 } . Припустимо, загалом є n спостережень.
X∖Y010S00S101S01S11
Sijx=iy=ji,j∈{0,1}n
Якщо ми вписуємося модель (де г наша функція зв'язку) , ми знайдемо , що & beta ; 0 є логит пропорції успіхів при ї я = 0 і & beta ; 0 + β 1 являє собою логит пропорції успіхів приpi=g−1(xTiβ)=g−1(β0+β11xi=1)gβ^0xi=0β^0+ β^1 . Іншими
словами, β 0 = г ( S 01хi= 1
і
β 0+ β 1=г(S11
β^0= g( S01S00+ S01)
β^0+ β^1= g( S11S10+ S11) .
Давайте перевіримо це R
.
n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)
tbl <- table(x=x,y=y)
mod <- glm(y ~ x, family=binomial())
# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])
# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])
Тож коефіцієнти логістичної регресії - це саме перетворення пропорцій, що виходять із таблиці.
Підсумок полягає в тому, що ми, безумовно, можемо проаналізувати цей набір даних за допомогою логістичної регресії, якщо у нас є дані, що надходять із серії випадкових змінних Бернуллі, але, виявляється, вони не відрізняються від прямого аналізу отриманої таблиці непередбачених ситуацій.
Yi| хi∼⊥Берн ( сi)хipi= g- 1( β0+β1хi)хipip0p1
∑i : xi= 0Yi= S01∼ Бін ( n0, стор0)
∑i : xi= 1Yi= S11∼ Бін ( n1, стор1) .
хiн0н1
S01/ н0= S01S00+ S01→pp0 і S11/ н1= S11S10+ S11→pp1.
Yi| хi= j ∼ Берн ( сj)Sj 1∼ Бін ( nj, сторj)