Розуміння параметрів усередині негативного біноміального розподілу


37

Я намагався відповідати моїм даними в різні моделі і з'ясував , що fitdistrфункція з бібліотеки MASSз Rдає мені , Negative Binomialяк найбільш підходяще. Тепер на сторінці wiki визначення задано як:

Розподіл NegBin (r, p) описує ймовірність k провалів і r успіхів у k + r випробуваннях Бернуллі (p) з успіхом на останньому випробуванні.

Використання Rдля встановлення моделі дає мені два параметри meanі dispersion parameter. Я не розумію, як їх інтерпретувати, тому що я не бачу цих параметрів на сторінці вікі. Я бачу лише формулу:

Формула негативного біноміального розподілу

де kкількість спостережень і r=0...n. Тепер, як я пов'язати їх з параметрами, заданими R? Файл довідки також не містить великої кількості інформації.

Крім того, щоб сказати кілька слів про мій експеримент: У соціальному експерименті, який я проводив, я намагався підрахувати кількість людей, з якими контактував кожен користувач протягом 10 днів. Кількість популяції для експерименту становила 100.

Тепер, якщо модель підходить до негативного бінома, я можу сліпо сказати, що випливає з цього розподілу, але я дуже хочу зрозуміти інтуїтивний сенс, що стоїть за цим. Що означає говорити про те, що кількість людей, з якими контактували мої дослідники, слідує за негативним біноміальним розподілом? Може хтось, будь ласка, допоможе уточнити це?

Відповіді:



10

Як я вже згадував у своєму попередньому дописі до вас, я працюю над тим, щоб змусити мене обміняти пристосування для розподілу даних. Ось серед чого я дізнався:

Коли дисперсія більша за середню, очевидна передисперсія, і тому негативний біноміальний розподіл, ймовірно, доцільний. Якщо дисперсія та середня величина однакові, пропонується розподіл Пуассона, а коли дисперсія менша за середню, рекомендується розподіл біномів.

З даними підрахунку, над якими ви працюєте, ви використовуєте "екологічну" параметризацію негативної біноміальної функції в Р. Розділ 4.5.1.3 (Сторінка 165) наступної вільно доступної книги говорить саме про це (у контексті з R, не менше!) і, сподіваюся, може вирішити деякі ваші запитання:

http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf

Якщо ви прийшли до висновку, що ваші дані є нульовими (тобто ймовірність 0 спостережень дорівнює 0), ви, можливо, захочете перевірити нульовий смак NBD, який знаходиться в пакеті R VGAM .

Ось приклад його застосування:

library(VGAM)

someCounts = data.frame(n = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16),
                     freq = c(182479,76986,44859,24315,16487,15308,5736,
                              2843,1370,1115,1127,49,100,490,106,2))

fit = vglm(n ~ 1, posnegbinomial, control = vglm.control(maxit = 1000), weights=freq,
           data=someCounts)

Coef(fit)

pdf2 = dposnegbin(x=with(someCounts, n), munb=0.8344248, size=0.4086801)

print( with(someCounts, cbind(n, freq, fitted=pdf2*sum(freq))), dig=9)

Я сподіваюся, що це корисно.


Сторінка 165 у книзі.
SmallChess
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.