Негативне запитання про біноміальну регресію

Я читаю дуже цікаву статтю Продавців та Шмуелі про регресійні моделі для підрахунку даних. Близько початку (стор. 944) вони цитують МакКаллау та Нелдера (1989), які стверджують, що негативна біноміальна регресія непопулярна і має проблематичну канонічну зв'язок. Я знайшов згаданий уривок, і він говорить (стор. 374 М і N)

"Здається, мало використовували негативний біноміальний розподіл у додатках; зокрема, використання канонічного зв'язку є проблематичним, оскільки воно робить лінійний предиктор функцією параметра функції дисперсії".

На попередній сторінці вони надають функцію посилання як

η = \log (\frac{α}{1 + α}) = \log (\frac{μ}{μ + k})

$\eta = \log\left(\frac{\alpha}{1 + \alpha} \right) = \log\left( \frac{\mu}{\mu + k}\right)$

і дисперсійна функція

V = μ + \frac{μ^{2}}{k} .

$V = \mu + \frac{\mu^2}{k}.$

Розподіл задається як

P r (Y = y; α, k) = \frac{(y + k - 1)!}{y! (k - 1)!} \frac{α^{y}}{(1 + α)^{y = k}}

$Pr(Y = y; \alpha,k) = \frac{(y+k-1)!}{y!(k-1)!}\frac{\alpha^y}{(1+\alpha)^{y=k}}$

Я виявив, що регресія НБ досить широко використовується (і рекомендується в декількох книгах). Чи помиляються всі ці використання та рекомендації?

Які наслідки цього проблемного зв’язку?

regression modeling negative-binomial

— Пітер Флом - Відновити Моніку
джерело

Ймовірно, це має бути принаймні частково до того, що цитата, приписана 1989-го року. Модель NB є дуже корисною, як правило, якщо ви маєте справу з проблемами надмірної дисперсії у звичайній біноміальній ймовірності (тобто логістичній регресії).

V

$V$

α

$\alpha$

μ^{2}

$\mu^2$

V = μ + α μ^{2}

$V = \mu + \alpha \mu^2$

Я б взяв ці коментарі із зерном солі. Re MN: У них було дуже суворе визначення того, що таке GLM (я думаю, з поважних причин). Негбінові моделі з невідомим параметром форми не дотримуються дуже строгого визначення GLM від McCullagh, Nelder, Pregibon тощо. Таким чином, технічно це не GLM майже у всіх випадках використання. Інтерпретується як дещо інший клас моделі та оцінюється з максимальною ймовірністю, більше не виникає проблем. Re S&S знадобився випадок, щоб мотивувати COM Poisson, тому цитата M & N стала в нагоді.

— Момо

Я не бачу, чому нібито погані властивості канонічної ланки роблять нейбінову модель загалом невиправданою. Ви вибираєте свою функцію зв'язку на основі даних та проблеми, яку ви намагаєтеся вирішити, а не посилаючись на математичну теорію. Насправді я сумніваюся, що хтось використовує канонічне посилання. Це схожа історія з гамма-ГЛМ; канонічне посилання є зворотним, але я б обміняв, що набагато більше людей використовують посилання через журнал через простоту інтерпретації та природне застосування у багатьох ситуаціях.

— Hong Ooi

E {Y | X} = e x p (X β)

$E\{Y|X\}=exp(X\beta)$

β

$\beta$

Я заперечую твердження з кількох точок зору:

i) Хоча канонічне посилання може бути "проблематичним", не відразу очевидно, що хтось зацікавиться цим посиланням - тоді як, наприклад, посилання журналу в Пуассоні часто є зручним і природним, і тому люди часто зацікавлений у тому. Тим не менш, у випадку Пуассона люди дійсно переглядають інші функції зв'язку.

Тож нам не потрібно обмежувати наш погляд канонічним посиланням.

"Проблемна зв'язок" сама по собі не є особливо яскравим аргументом проти негативної біноміальної регресії.

Наприклад, посилання на журнал, здається, є цілком розумним вибором у деяких негативних біноміальних додатках, наприклад, у випадках, коли дані можуть бути умовно Пуассоном, але в швидкості Пуассона є неоднорідність - посилання на журнал може бути майже такою ж інтерпретаційною як це є у випадку Пуассона.

Для порівняння, я досить часто використовую гамма-версії GLM, але я не пригадую (приклади підручників убік), коли б колись використовував його канонічне посилання - я використовую логін-посилання майже завжди, оскільки це більш природне посилання для використання для таких проблем Я схильний працювати.

ii) "Здається, мало що було зроблено ... у додатках", можливо, це було майже так, як у 1989 році, але я не думаю, що це зараз існує. [Навіть якщо це дійсно стояло зараз, це не є аргументом того, що це погана модель, лише те, що вона не використовується широко - що може статися з будь-яких причин.]

Негативна біноміальна регресія стала ширше застосовуватися, оскільки вона є більш доступною, і зараз я бачу, що вона використовується в додатках набагато ширше. Наприклад, в R я використовую функції, MASSякі його підтримують (а відповідна книга, Venables and Ripley's, Modern Applied Statistics with S , використовує негативну біноміальну регресію в деяких цікавих програмах) - і я використовував деяку функціональність в декількох інших пакетах ще до того, як я використовував його в Р.

Я б більше використовував негативну біноміальну регресію, навіть раніше, якби вона була мені доступна; Я очікую, що те саме стосується багатьох людей - тому аргумент про те, що він мало використовувався, здається, більше можливостей.

Хоча можна уникнути негативної біноміальної регресії (скажімо, використовуючи передисперсні моделі Пуассона) або ряду ситуацій, коли це насправді не має великого значення, чим ти займаєшся , є різні причини, чому це не зовсім задовільно.

Наприклад, коли мене цікавлять більше інтервали прогнозування, ніж оцінки коефіцієнтів, той факт, що коефіцієнти не змінюються, не може бути адекватною причиною уникнення негативного двочлену.

Звичайно, є й інші варіанти, що моделюють дисперсію (наприклад, Конвей-Максвелл-Пуассон, що є предметом статті, яку ви згадали); Хоча це, безумовно, варіанти, іноді бувають ситуації, коли я дуже щасливий, що негативний біноміал досить добре «підходить» як модель для моєї проблеми.

Чи помиляються всі ці використання та рекомендації?

Я дійсно так не думаю! Якби вони були, то це мало б уже зараз зрозуміти. Дійсно, якби МакКаллаг і Нелдер продовжували почуватись так само, у них не було ні можливості, ні браку форумів, на яких можна було б уточнити решту питань. Нелдер пішов з життя (2010), але Маккалла, мабуть, ще навколо .

Якщо цей короткий уривок у МакКаллаґ і Нелдера - це все, що вони є, я б сказав, що це досить слабкий аргумент.

Які наслідки цього проблемного зв’язку?

Я думаю, що проблема в основному є однією з функцій дисперсії, а функція зв’язку пов'язана, а не пов'язана (як це стосується майже всіх інших основних сімейств GLM, що користуються популярністю), що робить інтерпретацію за шкалою лінійного предиктора менш простий (це не означає, що це єдине питання; я думаю, що це головне питання для практикуючого). Це не велика угода.

$p$

Нічого з цього не полягає в тому, щоб щось відірвати від моделей Конвей-Максвелла-Пуассона (тематика «Продавці» та «Шмуелі»), які також набувають все більшої популярності - я, звичайно, не бажаю брати участь у негативному двочленні проти COM -Пайсон-стрілецький матч.

Я просто не сприймаю це як одне чи інше, більш ніж (зараз кажучи ширше), я займаю суто байєсівську чи чисто частістську позицію щодо статистичних проблем. Я буду використовувати все, що мене вражає, як найкращий вибір у конкретних обставинах, в яких я перебуваю, і кожен вибір має переваги та недоліки.

— Glen_b -Встановити Моніку
джерело

Негативне запитання про біноміальну регресію - це погана модель?