Логістична регресія: Бернуллі проти біноміальних змін реакції


32

Я хочу виконати логістичну регресію з наступною біноміальною відповіддю та з та як мої прогнози. X1X2

введіть тут опис зображення

Я можу представити ті самі дані, що й відповіді Бернуллі, у наступному форматі.

введіть тут опис зображення

Виходи логістичної регресії для цих двох наборів даних здебільшого однакові. Залишки відхилення та АПК різні. (Різниця між нульовим відхиленням і залишковим відхиленням однакова в обох випадках - 0,228.)

Далі наведені результати регресії з Р. Набори даних називаються binom.data та bern.data.

Ось біноміальний вихід.

Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, 
    family = binomial, data = binom.data)

Deviance Residuals: 
[1]  0  0  0

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance:  2.2846e-01  on 2  degrees of freedom
Residual deviance: -4.9328e-32  on 0  degrees of freedom
AIC: 11.473

Number of Fisher Scoring iterations: 4

Ось вихід Бернуллі.

Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -1.3537   0.7585   0.9281   1.0108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 15.276  on 11  degrees of freedom
Residual deviance: 15.048  on  9  degrees of freedom
AIC: 21.048

Number of Fisher Scoring iterations: 4

Мої запитання:

1) Я бачу, що точкові оцінки та стандартні помилки між двома підходами є рівнозначними в цьому конкретному випадку. Чи правда ця еквівалентність взагалі?

2) Як можна відповісти на запитання №1 математично?

3) Чому залишки відхилення та AIC відрізняються?

Відповіді:


24

1) Так. Можна агрегувати / дезагрегувати (?) Біноміальні дані від осіб з однаковими коваріатами. Це випливає з того, що достатньою статистикою для біноміальної моделі є загальна кількість подій для кожного коваріатного вектора; а Бернуллі - це лише особливий випадок двочлена. Інтуїтивно, кожне випробування Бернуллі, яке утворює біноміальний результат, є незалежним, тому не повинно бути різниці між підрахунком їх як одного результату або як окремих окремих випробувань.

2) Скажімо, у нас є унікальних коваріатних векторів , кожен з яких має біноміальний результат під випробувань , тобто Ви вказали логістичну регресію модель, тому хоча ми побачимо згодом, що це не важливо.х 1 , х 2 , ... , х п N я Y я ~ Б я л ( N я , р я ) л про г я т ( р я ) = K Σ K = 1 β до й я донх1,х2,,хнNi

YiБiн(Ni,pi)
логiт(pi)=к=1Кβкхiк

Імовірність журналу для цієї моделі - і ми максимізуємо це стосовно (в термінах), щоб отримати наші оцінки параметрів.

(β;Y)=i=1нжурнал(NiYi)+Yiжурнал(pi)+(Ni-Yi)журнал(1-pi)
βpi

Тепер, врахуйте, що для кожного , ми розділимо біноміальний результат на окремих Bernoulli / бінарних результатів, як ви це зробили. Зокрема, створіть Тобто перші це 1s, а решта - 0s. Це саме те, що ви зробили - але ви могли однаково виконати перший як 0s, а решта як 1s, або будь-яке інше замовлення, правда?i=1,,нNi

Zi1,,ZiYi=1
Zi(Yi+1),,ZiNi=0
Yi(Ni-Yi)

Ваша друга модель говорить, що з тією ж моделлю регресії для як вище. Імовірність журналу для цієї моделі - і через те, як ми визначили наші s, це можна спростити до який повинен виглядати досить звично.

ZijБеrноуллi(pi)
pi
(β;Z)=i=1нj=1NiZijжурнал(pi)+(1-Zij)журнал(1-pi)
Zij
(β;Y)=i=1нYiжурнал(pi)+(Ni-Yi)журнал(1-pi)

Щоб отримати оцінки у другій моделі, ми максимізуємо це стосовно . Єдина відмінність між цією і першою ймовірністю журналу - це термін , який є постійним щодо , і тому не впливає на максимізацію, і ми отримаємо однакові оцінки.βжурнал(NiYi)β

3) Кожне спостереження має залишковий відхилення. У двочленній моделі вони де - приблизна ймовірність вашої моделі. Зауважте, що ваша двочленна модель насичена (0 залишкових ступенів свободи) і має ідеальну : для всіх спостережень, тому для всіх .

Di=2[Yiжурнал(Yi/Nip^i)+(Ni-Yi)журнал(1-Yi/Ni1-p^i)]
p^ip^i=Yi/NiDi=0i

У моделі Бернуллі Крім того, що тепер у вас буде відхилення (замість як у біноміальних даних), кожен з них буде або або залежно від того, або , і, очевидно, не такі, як вище. Навіть якщо ви сумуєте їх за щоб отримати суму залишків відхилення для кожного , ви не отримаєте однакову:

Dij=2[Zijжурнал(Zijp^i)+(1-Zij)журнал(1-Zij1-p^i)]
i=1нNiн
Dij=-2журнал(p^i)
Dij=-2журнал(1-p^i)
Zij=10ji
Di=j=1NiDij=2[Yiжурнал(1p^i)+(Ni-Yi)журнал(11-p^i)]

Той факт, що АПК відрізняється (але зміни у відхиленні немає) повертається до постійного терміну, який був різницею між ймовірністю журналу двох моделей. При обчисленні відхилення це скасовується, оскільки воно однакове у всіх моделях на основі одних і тих же даних. AIC визначається як і цей комбінаторний термін - це різниця між s:

АЯС=2К-2

АЯСБеrноуллi-АЯСБiномiал=2i=1нжурнал(NiYi)=9.575

Дякую за дуже детальну відповідь, Марк! Вибачте за затримку моєї відповіді - я був у відпустці. 3) Враховуючи, що дві моделі дають різні результати для залишків відхилення та AIC, яка з них є правильною чи кращою? а) Наскільки я розумію, спостереження із залишковим відхиленням, що перевищує два, можуть свідчити про відсутність придатності, тому абсолютні значення залишків відхилення мають значення. b) Оскільки AIC використовується для порівняння придатності між різними моделями, можливо, немає "правильного" AIC. Я просто порівняв би AIC двох біноміальних моделей або 2 моделей Бернуллі.
Вчений

a) Для двійкових даних буде> 2, якщо або ( і ) або ( і ). Тож навіть якщо ваша модель ідеально відповідає біноміальним даним для го коваріатного вектора (наприклад, , скажімо), то s, який ви довільно виділили як У 1 буде . З цієї причини, я думаю, що залишкові відхилення мають більше сенсу при біноміальних даних. Крім того, саме відхилення для двійкових даних не має своїх звичних властивостей ...DijZij=1p^i<е-1=0,368Zij=0p^i>1-е-1=0,632iYi/Ni=p^i<0,368Yi ZijDij>2
Позначити


1
б) Так, порівнювати s між моделями має сенс лише тоді, коли дані, які використовуються для встановлення кожної моделі, точно однакові. Тому порівняйте Бернуллі з Бернуллі або двочлен з двочленним. АЯС
Марк

Спасибі, Марку! Ваші продумані та детальні відповіді високо оцінені!
Вчений

0

Я просто хочу прокоментувати останній абзац: «Те, що АПК відрізняється (але зміни у відхиленні немає) повертається до постійного терміна, який був різницею між ймовірністю журналу двох моделей. При обчисленні зміни відхилення це скасовується, оскільки воно однакове у всіх моделях на основі одних і тих же даних. "На жаль, це не вірно для зміни відхилення. Відхилення не включає постійний термін Ex (додаткова константа термін у логічній ймовірності для біноміальних даних). Тому зміна відхилення не має нічого спільного з постійним терміном EX. Відхилення порівнює дану модель з повною моделлю. Те, що відхилення відрізняються від Bernoulli / binary і біноміальне моделювання, але зміна відхилення не пов'язана з різницею значень вірогідності повних моделей. Ці значення скасовуються при обчисленні змін відхилень. Тому моделі Бернуллі та біноміальної логістичної регресії призводять до однакових змін відхилення за умови, що прогнозовані ймовірності pij і pi однакові. Насправді це справедливо для probit та інших функцій зв'язку.

Нехай lBm і lBf позначають значення вірогідності журналу від розміщення моделі m та повної моделі f до даних Бернуллі. Відхилення тоді

    DB=2(lBf - lBm)=-2(lBm – lBf).

Хоча lBf дорівнює нулю для двійкових даних, ми не спростили БД і зберегли її як є. Відхилення від біноміального моделювання з тими ж коваріатами є

    Db=2(lbf+Ex – (lbm+Ex))=2(lbf – lbm) = -2(lbm – lbf)

де lbf + Ex і lbm + Ex - значення вірогідності журналу за повними і m моделями, пристосованими до біноміальних даних. Додатковий постійний член (Ex) зникає з правого боку Db. Тепер подивимось на зміну відхилень від моделі 1 до моделі 2. У моделі Бернуллі ми змінимо відхилення

    DBC=DB2-DB1=2(lBf – lBm2)-2(lBf – lBm1) =2(lBm1 – lBm2).

Аналогічно, зміна відхилення від біноміального прилягання

    DbC=DB2-DB1=2(lbf – lbm2)-2(lbf – lbm1) =2(lbm1 – lbm2).

Одразу випливає, що зміни відхилень не містять вкладів імовірності входу від повних моделей, lBf та lbf. Тому ми отримаємо однакову зміну відхилення, DBC = DbC, якщо lBm1 = lbm1 і lBm2 = lbm2. Ми знаємо, що тут справа, і саме тому ми отримуємо однакові зміни відхилення від Бернуллі та біноміального моделювання. Різниця між lbf та lBf призводить до різних відхилень.


6
Чи можливо ви змінили форматування своєї відповіді? На жаль, у цій формі він не дуже читабельний. Я б закликав вас гальмувати текст параграфами та додавати формули до формул. Також не завжди зрозуміло, що означають використовувані вами скорочення. ТЕХ
Тім

Велике спасибі, Тіме. Я не знайомий з форматуванням TEX. Я спочатку ввів слово, але мені не вдалося скопіювати та вставити. Я відокремив рівняння від тексту.
Саї

Я не впевнений, чи неправильно ви читаєте цей абзац: я сказав, що "АПК відрізняється ( але зміна відхилення не є )", а решта абзацу пояснює, чому АПК відрізняється між двома моделями. Я не стверджував, що зміна відхилення залежить від постійного терміну. Насправді я сказав: " Підрахувавши зміну відхилення, це [постійний термін] скасовується, оскільки воно однакове у всіх моделях на основі одних і тих же даних "
Марк

Проблема полягає в тому, що в тексті є лише один «постійний термін», і це комбінаторний термін (біноміальний коефіцієнт). Коли ви скажете "це" скасовується, це означає, що постійний термін включений у відхилення. Різниця між відхиленнями від моделей Бернуллі та біноміалу полягає в внеску від значення логічності ймовірності lbf від повної моделі. Lbf не змінюється в різних біноміальних моделях на одних і тих же даних, і він скасовується при обчисленні зміни відхилення.
Саї

Ну добре, я бачу, що ти маєш на увазі. Я відповідним чином відредагував свою відповідь, залишивши у посиланні на зміну відхилення, оскільки запитувач конкретно це згадав. Зміна відхилення однакова, оскільки відхилення не залежить від постійного періоду.
Марк
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.