Які припущення щодо негативної біноміальної регресії?

30

Я працюю з великим набором даних (конфіденційним, тому я не можу надто багато поділитися), і прийшов до висновку, що необхідна негативна біноміальна регресія. Я ніколи раніше не робив регрес glm, і не можу знайти чіткої інформації про те, що таке припущення. Вони однакові для MLR?

Чи можу я перетворити змінні так само (я вже виявив, що трансформація залежної змінної є поганим викликом, оскільки вона повинна бути натуральним числом)? Я вже визначив, що негативний біноміальний розподіл допоможе при надмірній дисперсії моїх даних (дисперсія становить приблизно 2000, середня - 48).

Дякую за допомогу!!

— Карлі
джерело

42

Я працюю з великим набором даних (конфіденційним, тому я не можу надто багато ділитися),

Можливо, можливо створити невеликий набір даних, який має деякі загальні характеристики реальних даних без ні імен змінних, ні будь-яких фактичних значень.

і дійшов висновку, що необхідна негативна біноміальна регресія. Я ніколи раніше не робив регрес glm, і не можу знайти чіткої інформації про те, що таке припущення. Вони однакові для MLR?

Ясно, що ні! Ви вже знаєте, що припускаєте, що реакція є умовно негативною двочленною, а не умовно нормальною. ( Деякі припущення поділяються. Незалежність, наприклад.)

Дозвольте спочатку поговорити про ГЛМ.

GLM включають множинні регресії, але узагальнюють кількома способами:

1) умовний розподіл відповіді (залежної змінної) відбувається з родини експонентів , що включає пуассонські, біноміальні, гамма, нормальні та численні інші розподіли.

2) середня реакція пов'язана з предикторами (незалежними змінними) через функцію зв'язку . Кожне сімейство розподілів має пов’язану з ним функцію канонічної зв'язку - наприклад, у випадку Пуассона, канонічною ланкою є журнал . Канонічні посилання майже завжди є типовими, але в більшості програмного забезпечення, як правило, є кілька варіантів у кожному виборі розповсюдження. Для двочлена канонічною ланкою є logit (лінійний предиктор - це моделювання , коефіцієнти успіху в журналі або "1"), а для Гамми канонічне посилання є зворотним, але в обох випадках часто використовуються інші функції зв'язку. $\log(\frac{p}{1-p})$

Отже, якщо ваша відповідь була а ваші передбачувачі були і , з регресією Пуассона з посиланням на журнал, який ви можете мати для вашого опису того, як середнє значення пов'язане з : $Y$ $X_1$ $X_2$ $Y$ $X$

$\text{E}(Y_i) = \mu_i$

$\log\mu_i= \eta_i$ $\eta$ $\log$ $g$

$\eta_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i}$

3) дисперсія відповіді не є постійною, але функціонує через дисперсійну функцію (функцію середнього, можливо, значення параметра масштабування). Наприклад, дисперсія Пуассона дорівнює середній, тоді як для гами вона пропорційна квадрату середнього. (Квазірозподіли дозволяють деяку ступінь від'єднання функції Variance від припущеного розподілу)

-

То які припущення є спільними з тим, що ви пам’ятаєте з MLR?

Незалежність все ще є.
Гомоскедастичність більше не передбачається; дисперсія явно є функцією середнього значення і, як правило, змінюється в залежності від предикторів (тому модель, як правило, гетерокедастична, гетерокедастичність приймає специфічну форму).
$X\beta$
Розподіл відповіді істотно більш загальний

$t$

Порівняння між вкладеними моделями (за допомогою «anova-table», таких як установки) дещо відрізняються, але схожі (включаючи асимптотичні тести на хі-квадрат). Якщо вам подобається AIC та BIC, їх можна розрахувати.

Подібні види діагностичних дисплеїв зазвичай використовуються, але їх важче інтерпретувати.

Значна частина вашої інтуїції лінійної регресії буде перенесена, якщо ви пам’ятаєте про відмінності.

$Y$ $x$

$\text{E}(Y) = \exp(\eta) = \exp(X\beta) = \exp(\beta_0+\beta_1 x)$

$\text{Var}(Y) = \sigma^2$

$Y$ $x$

Чи можу я перетворити змінні так само (я вже виявив, що трансформація залежної змінної є поганим викликом, оскільки вона повинна бути натуральним числом)?

Ви (як правило) не хочете трансформувати відповідь (DV). Іноді ви можете захотіти перетворити предиктори (IV) для досягнення лінійності лінійного предиктора.

Я вже визначив, що негативний біноміальний розподіл допоможе при надмірній дисперсії моїх даних (дисперсія становить приблизно 2000, середня - 48).

Так, це може мати справу з надмірною дисперсією. Але слідкуйте за тим, щоб не плутати умовну дисперсію з безумовною дисперсією.

Ще один поширений підхід - якщо трохи більш невдалий і настільки менш задоволений на мій погляд - це квазі-пуассонівська регресія (наддисперсна пуассонова регресія).

Що стосується від'ємного двочлена, то це в експоненціальній сім'ї, якщо вказати конкретний один із його параметрів (спосіб, як правило, перемежований як мінімум для GLMS). Деякі пакети підійдуть для нього, якщо ви вкажете параметр, інші обернуть оцінку цього параметра для ML (скажімо, через імовірність профілю) навколо процедури GLM, автоматизуючи процес. Деякі обмежать вас меншим набором дистрибутивів; ви не кажете, яке програмне забезпечення ви можете використовувати, тому складно сказати набагато більше.

Я думаю, що зазвичай log-link має тенденцію використовуватись при негативній біноміальній регресії.

Існує ряд документів на вступному рівні (легко знайдений через google), які ведуть через основні аналітичні дані Poisson GLM, а потім негативний біноміальний аналіз GLM, але ви можете віддати перевагу книзі про ГЛМ і, можливо, спочатку зробити невелику пуассонову регресію. просто звикнути до цього.

— Glen_b -Встановити Моніку
джерело

1

+1 Я згоден з COOLSerdash. Тут багато хорошої інформації! Окрім рекомендованого пошуку в Google, я спеціально рекомендую підручник під назвою Економетрика за прикладом Гуджараті. Розділ 12 охоплює регресійну модель Пуассона та модель негативно-біноміальної регресії. Як випливає з назви книги, є приклади. Дані, які використовуються в книзі, доступні на веб-сайті супутника книг, і, таким чином, є коротким підсумком глави 12 . Я рекомендую ОП перевірити це.

— Graeme Walsh

Я спізнююсь на вечірку ... але ця відповідь допомогла мені зрозуміти узагальнені лінійні моделі краще, ніж цілий стос книг у бібліотеці.

— haff

0

Деякі посилання, які я вважаю корисними для аналізу даних із негативним розподілом біномів, зокрема (включаючи припущення про лістинг) та GLM / GLMM, зазвичай:

Бейтс, Д.М., Б. Махлер, Б. Болкер і С. Уокер. 2015. Встановлення лінійних моделей зі змішаними ефектами за допомогою lme4. Дж. Стат. Програмне забезпечення 67: 1-48.

Bolker, BM, ME Brooks, CJ Clark, SW Geange, JR Poulsen, MHH Stevens та J. White. Узагальнені лінійні змішані моделі: практичний посібник з екології та еволюції. Тенденції екології та еволюції 127-135.

Zeileis A., C. Keleiber C, S. Jackck 2008. Регресійні моделі для підрахунку даних у RJ Stat. Програмне забезпечення. 27: 1-25

Зуур А.Ф., Е.Н. Ієне, Н. Уокер, А.А. Савельєв та Г.М. Сміт. 2009. Моделі та розширення змішаних ефектів в екології з Р. Спрінгер, Нью-Йорк, США.

— Тодд Джонсон
джерело