Моделювання розподілу Пуассона з наддисперсією


15

У мене є набір даних, який я б очікував, що слідкує за розповсюдженням Пуассона, але він перерозподілений приблизно в 3 рази. В даний час я моделюю цю наддисперсію, використовуючи щось подібне до наступного коду в Р.

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

Візуально це, здається, дуже добре відповідає моїм емпіричним даним. Якщо я задоволений пристосуванням, чи є якась причина, що я повинен робити щось складніше, як-от використовувати негативний біноміальний розподіл, як описано тут ? (Якщо так, будь-які вказівки чи посилання на це будуть дуже вдячні).

О, і я знаю, що це створює злегка нерівний розподіл (через множення на три), але це не має значення для мого застосування.


Оновлення: заради того, хто шукає і знайде це питання, ось проста функція R для моделювання перекритого пуассона за допомогою негативного біноміального розподілу. Встановіть d на бажане середнє / дисперсійне співвідношення:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(через список розсилки R: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )

Відповіді:


11

для наддисперсного пуассона використовують негативний біном, що дозволяє точно параметризувати дисперсію як функцію середнього. rnbinom () тощо в Р.


1
Чому негативна біноміальна, а не змішана модель із випадковим ефектом на рівні спостереження? Це не риторичне питання. Це "я не розумію, якому саме віддати перевагу". питання. Крім того, що робити, якщо у мене ситуація з повторними заходами? Коли мої дані будуть безперервними, я буду використовувати узагальнену лінійну змішану модель. Розподіл гамми часто добре працює з постійними біологічними даними, і змішана модель обробляє елемент повторних заходів. Але що робити, якщо перенаселені дані повторного підрахунку вимірювань?
Брайан

Однією з причин того, що репараметризована негативна біноміальна модель популярна серед даних наддисперсного пуассона, є b / c, вона моделює дисперсію як функцію середньої (такої ж, як у пуассоні) з параметром наддисперсії для моделювання "зайвої" дисперсії. Швидку формулу див. На сторінці 487 тут: worldscientist.com/doi/pdf/10.1142/9789813235533_0044 та на вікіпедії для пояснення щодо перематерифікації: en.wikipedia.org/wiki/Negative_binomial_distribution
Самір Рахід Заїм

4

Якщо середнє значення Пуассона становить 1500, то ви дуже близькі до нормального розподілу; ви можете спробувати використовувати це як наближення, а потім моделювати середнє значення та дисперсію окремо.


Це лише приклад - він може мати медіану, значно меншу, порядку 200 (це залежить від того, як я розділюю дані). Це заважає використовувати нормальний розподіл, правда?
chrisamiller

1
Нормальне наближення до розподілу Пуассона досить міцне, різниця між CDF обмежена чимось на зразок 0,75 / sqrt (лямбда), якщо я правильно згадую. Я б не надто хвилювався щодо використання лямбда = 200, але якщо ви більше ризикуєте, тоді обов'язково перейдіть з негативним двочленом.
Багатий
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.