Я працюю з великим набором даних (конфіденційним, тому я не можу надто багато ділитися),
Можливо, можливо створити невеликий набір даних, який має деякі загальні характеристики реальних даних без ні імен змінних, ні будь-яких фактичних значень.
і дійшов висновку, що необхідна негативна біноміальна регресія. Я ніколи раніше не робив регрес glm, і не можу знайти чіткої інформації про те, що таке припущення. Вони однакові для MLR?
Ясно, що ні! Ви вже знаєте, що припускаєте, що реакція є умовно негативною двочленною, а не умовно нормальною. ( Деякі припущення поділяються. Незалежність, наприклад.)
Дозвольте спочатку поговорити про ГЛМ.
GLM включають множинні регресії, але узагальнюють кількома способами:
1) умовний розподіл відповіді (залежної змінної) відбувається з родини експонентів , що включає пуассонські, біноміальні, гамма, нормальні та численні інші розподіли.
2) середня реакція пов'язана з предикторами (незалежними змінними) через функцію зв'язку . Кожне сімейство розподілів має пов’язану з ним функцію канонічної зв'язку - наприклад, у випадку Пуассона, канонічною ланкою є журнал . Канонічні посилання майже завжди є типовими, але в більшості програмного забезпечення, як правило, є кілька варіантів у кожному виборі розповсюдження. Для двочлена канонічною ланкою є logit (лінійний предиктор - це журнал моделювання ( с, коефіцієнти успіху в журналі або "1"), а для Гамми канонічне посилання є зворотним, але в обох випадках часто використовуються інші функції зв'язку.журнал( с1 - с)
Отже, якщо ваша відповідь була а ваші передбачувачі були X 1 і X 2 , з регресією Пуассона з посиланням на журнал, який ви можете мати для вашого опису того, як середнє значення Y пов'язане з X :YХ1Х2YХ
Е ( Yi) = μi
журналмкi= ηiηжурналг
ηi= β0+ β1х1 i+β2х2 i
3) дисперсія відповіді не є постійною, але функціонує через дисперсійну функцію (функцію середнього, можливо, значення параметра масштабування). Наприклад, дисперсія Пуассона дорівнює середній, тоді як для гами вона пропорційна квадрату середнього. (Квазірозподіли дозволяють деяку ступінь від'єднання функції Variance від припущеного розподілу)
-
То які припущення є спільними з тим, що ви пам’ятаєте з MLR?
Незалежність все ще є.
Гомоскедастичність більше не передбачається; дисперсія явно є функцією середнього значення і, як правило, змінюється в залежності від предикторів (тому модель, як правило, гетерокедастична, гетерокедастичність приймає специфічну форму).
Хβ
Розподіл відповіді істотно більш загальний
т
Порівняння між вкладеними моделями (за допомогою «anova-table», таких як установки) дещо відрізняються, але схожі (включаючи асимптотичні тести на хі-квадрат). Якщо вам подобається AIC та BIC, їх можна розрахувати.
Подібні види діагностичних дисплеїв зазвичай використовуються, але їх важче інтерпретувати.
Значна частина вашої інтуїції лінійної регресії буде перенесена, якщо ви пам’ятаєте про відмінності.
Yх
Е ( Y) = Досвід( η) = Досвід( Xβ) = Досвід( β0+ β1х )
Вар ( Y) = σ2
Yх
Чи можу я перетворити змінні так само (я вже виявив, що трансформація залежної змінної є поганим викликом, оскільки вона повинна бути натуральним числом)?
Ви (як правило) не хочете трансформувати відповідь (DV). Іноді ви можете захотіти перетворити предиктори (IV) для досягнення лінійності лінійного предиктора.
Я вже визначив, що негативний біноміальний розподіл допоможе при надмірній дисперсії моїх даних (дисперсія становить приблизно 2000, середня - 48).
Так, це може мати справу з надмірною дисперсією. Але слідкуйте за тим, щоб не плутати умовну дисперсію з безумовною дисперсією.
Ще один поширений підхід - якщо трохи більш невдалий і настільки менш задоволений на мій погляд - це квазі-пуассонівська регресія (наддисперсна пуассонова регресія).
Що стосується від'ємного двочлена, то це в експоненціальній сім'ї, якщо вказати конкретний один із його параметрів (спосіб, як правило, перемежований як мінімум для GLMS). Деякі пакети підійдуть для нього, якщо ви вкажете параметр, інші обернуть оцінку цього параметра для ML (скажімо, через імовірність профілю) навколо процедури GLM, автоматизуючи процес. Деякі обмежать вас меншим набором дистрибутивів; ви не кажете, яке програмне забезпечення ви можете використовувати, тому складно сказати набагато більше.
Я думаю, що зазвичай log-link має тенденцію використовуватись при негативній біноміальній регресії.
Існує ряд документів на вступному рівні (легко знайдений через google), які ведуть через основні аналітичні дані Poisson GLM, а потім негативний біноміальний аналіз GLM, але ви можете віддати перевагу книзі про ГЛМ і, можливо, спочатку зробити невелику пуассонову регресію. просто звикнути до цього.