Я читаю A. Agresti (2007), Вступ до категоричного аналізу даних , 2-е. видання, і я не впевнений, чи правильно я розумію цей параграф (с.106, 4.2.1) (хоча це має бути легко):
У таблиці 3.1 про хропіння та захворювання серця в попередній главі 254 суб'єкти повідомляли про хропіння щовечора, з них 30 мали захворювання серця. Якщо файл даних згрупував двійкові дані, рядок у файлі даних повідомляє про ці дані як про 30 випадків захворювання серця із розміром вибірки 254. Якщо файл даних має негруповані бінарні дані, кожен рядок у файлі даних посилається на окремий предмет, тому 30 рядків містять 1 для захворювання серця, а 224 рядків - 0 для захворювання серця. Оцінки ML та значення SE однакові для будь-якого типу файлів даних.
Трансформація набору негрупованих даних (1 залежна, 1 незалежна) знадобиться більше, ніж "рядок", щоб включити всю інформацію !?
У наступному прикладі створюється (нереально!) Простий набір даних і будується модель логістичної регресії.
Як насправді виглядатимуть згруповані дані (вкладка змінної?)? Як можна побудувати ту саму модель, використовуючи згруповані дані?
> dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0))
> dat
y x
1 0 1
2 1 1
3 0 0
4 1 0
5 0 0
> tab=table(dat)
> tab
x
y 0 1
0 2 1
1 1 1
> mod1=glm(y~x, data=dat, family=binomial())