Що таке квазібіноміальний розподіл (в контексті ГЛМ)?


30

Я сподіваюсь, що хтось може надати інтуїтивний огляд того, що таке квазібіномічний розподіл і що він робить. Мене особливо цікавлять такі моменти:

  1. Наскільки квазібіноміальне відрізняється від біноміального розподілу.

  2. Коли змінна відповіді є пропорцією (приклади значень включають 0,23, 0,11, 0,78, 0,98), квазібіноміальна модель буде працювати в R, але біноміальна модель не буде.

  3. Чому квазібіноміальні моделі слід застосовувати, коли змінна відповідь TRUE / FALSE відповідає передисперсії.

Відповіді:


20
  1. Різниця між біноміальним розподілом і квазібіноміальним можна побачити в їх функціях густини ймовірностей (pdf), які характеризують ці розподіли.

    Біноміальний pdf:

    P(X=k)=(nk)pk(1p)nk

    Квазібіноміальний pdf:

    P(X=k)=(nk)p(p+kϕ)k1(1pkϕ)nk

    Квазібіноміальний розподіл, хоча і подібний до біноміального розподілу, має додатковий параметр (обмежений ), який намагається описати додаткова дисперсія в даних, яка не може бути пояснена лише біноміальним розподілом.ϕ|ϕ|min{p/n,(1p)/n}

    (Зауважте, що середнє квазібіноміальне розподіл - А не .)pi=0nn!ϕi(nk)!p

  2. Я не впевнений в цьому, можливо, функція glm в R додає ваги в квазібіноміальному режимі, щоб врахувати це?

  3. Призначення додаткового параметра - оцінка додаткової дисперсії в даних. Кожна узагальнена лінійна модель (GLM) робить розподільне припущення про результат / відповідь та максимально збільшує ймовірність даних, заснованих на такому розподілі. Це вибір, який робить аналітик, і якщо ви вважаєте, що вам потрібно врахувати більше варіацій у ваших даних, ви можете вибрати квазібіноміальну дистирбуцію для моделювання реакції на ваш glm. Прекрасний спосіб перевірити, чи потрібно нам помістити квазібіноміальну модель замість двочленної - це встановити квазібіноміальну модель і перевірити, чи є параметр 0.ϕϕ


2
Чудовий Алехандро, тепер як я можу перевірити, чи є параметр ϕ 0?
Хуанчі

2
Зверніть увагу , що в Rс glm.fit, binomialі quasibinomialточно так само, за винятком того, що quasibinomial(1) видаляє чек цілого числа, і (2) повертає АПК NA. Дивіться цю відповідь для отримання більш детальної інформації.
miguelmorin

-1 Цей вид "квазібіноміального" розподілу, здається, абсолютно не пов'язаний з квазібіномінальною ймовірністю в контексті ГЛМ, тому важко зрозуміти, чому він отримав так багато відгуків.
Jarle Tufto

14

Квазібіномальний не обов'язково є конкретним розподілом; він описує модель взаємозв'язку між дисперсією і середньої в узагальненій лінійної моделі , яка раз дисперсія для біноміального в термінах середнього для бінома.ϕ

Існує розподіл, який відповідає такій специфікації (очевидний - масштабований двочлен), але це не обов'язково мета, коли встановлюється квазібіноміальна модель; якщо ви підходите до даних, які все ще дорівнюють 0-1, його не можна масштабувати двочленним.

Таким чином, квазібіноміальна модель дисперсії за допомогою параметра може краще працювати з даними, для яких дисперсія більша (або, можливо, менша), ніж ви отримаєте з біноміальними даними, при цьому не обов'язково є фактичним розподілом взагалі .ϕ

Коли змінна відповіді є пропорцією (прикладові значення включають 0,23, 0,11, 078, 0,98), квазібіноміальна модель буде працювати в R, але біноміальна модель не буде

На мій спогад, біноміальну модель можна запустити в R з пропорціями *, але ви повинні встановити її правильно.

* Є три окремі способи надання біноміальних даних R, які я знаю. Я майже впевнений, що це один.


Як це пов'язано з оцінкою квазіподібності?
tim.farkas

2
+1 (але я хотів би побачити більш вичерпну відповідь!). Три способи встановлення біноміального GLM з пропорціями, ймовірно, такі: stats.stackexchange.com/a/26779/28666 ? Посилання може бути корисною. Крім того, як те, що ви сказали про те, що "квазібіноміальне" насправді не є розповсюдженням, стосується другої відповіді в цій темі?
амеба каже: Відновити Моніку

1
@amoeba ви можете написати розподіл для нього, як було зазначено у моїй відповіді (масштабований двочлен), але це не може бути розподілом для даних підрахунку (квазібіноміальне не є на всі цілі числа, якщо параметр дисперсії не дорівнює 1), а також для безперервних даних ( це дискретно!). Люди, як правило, використовують його для підрахунку даних через його дисперсійну структуру (але в такому випадку такого розподілу в експоненціальній родині немає)
Glen_b -Встановити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.