Відповіді:
Перш за все, моя порада - ви повинні утриматися від випробування розподілу Пуассона так само, як і до даних. Я пропоную вам спершу скласти теорію, чому розподіл Пуассона повинен відповідати конкретному набору даних або явищу.
Після того, як ви це встановили, наступне питання - це розподіл однорідний чи ні. Це означає, чи всі частини даних обробляються одним і тим же розподілом пуассона, чи є різниця в цьому на основі якогось аспекту, наприклад, часу або простору. Переконавшись у цих аспектах, спробуйте наступні три тести:
шукайте їх, і ви їх легко знайдете в мережі.
Ось послідовність R команд, яка може бути корисною. Ви можете коментувати чи редагувати, якщо помітили якісь помилки.
set.seed(1)
x.poi<-rpois(n=200,lambda=2.5) # a vector of random variables from the Poisson distr.
hist(x.poi,main="Poisson distribution")
lambda.est <- mean(x.poi) ## estimate of parameter lambda
(tab.os<-table(x.poi)) ## table with empirical frequencies
freq.os<-vector()
for(i in 1: length(tab.os)) freq.os[i]<-tab.os[[i]] ## vector of emprical frequencies
freq.ex<-(dpois(0:max(x.poi),lambda=lambda.est)*200) ## vector of fitted (expected) frequencies
acc <- mean(abs(freq.os-trunc(freq.ex))) ## absolute goodness of fit index acc
acc/mean(freq.os)*100 ## relative (percent) goodness of fit index
h <- hist(x.poi ,breaks=length(tab.os))
xhist <- c(min(h$breaks),h$breaks)
yhist <- c(0,h$density,0)
xfit <- min(x.poi):max(x.poi)
yfit <- dpois(xfit,lambda=lambda.est)
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)), main="Poison density and histogram")
lines(xfit,yfit, col="red")
#Perform the chi-square goodness of fit test
#In case of count data we can use goodfit() included in vcd package
library(vcd) ## loading vcd package
gf <- goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main="Count data vs Poisson distribution")
Я думаю, найпростіший спосіб - це просто зробити тест на добрість придатності у квадраті .
Насправді ось гарний аплет Java, який зробить саме це!
Ви можете використовувати дисперсію (відношення дисперсії до середнього) в якості тестової статистики, оскільки Пуассон повинен дати дисперсію 1. Ось посилання на те, як використовувати її як тест моделі.
Для розподілу Пуассона середнє значення дорівнює дисперсії. Якщо середня величина вибірки сильно відрізняється від дисперсії зразка, напевно, у вас немає даних про Пуассона. Також згаданий тут дисперсійний тест є формалізацією цього поняття.
Якщо ваша дисперсія набагато більша за середню, як це зазвичай трапляється, ви можете спробувати негативний біноміальний розподіл далі.
Можна намалювати єдину фігуру, на якій спостережувані та очікувані частоти малюються поряд. Якщо розподіли дуже різні, а також у вас коефіцієнт дисперсії середній більший, ніж один, то хорошим кандидатом є негативний двочлен. Прочитайте розділ Частотні розподіли від The R Book
. У ньому йдеться про дуже подібну проблему.
Я думаю, що головне в тому, що sidmaestro піднімає ... чи підтримують експериментальні установки чи механізм генерації даних передумови, що дані можуть виникати в результаті розподілу Пуассона.
Я не є великим прихильником тестування на припущення щодо розповсюдження, оскільки ці тести, як правило, не дуже корисні. Що мені здається більш корисним - це робити припущення щодо розповсюдження чи моделювання, які є гнучкими та досить стійкими до відхилень від моделі, як правило, для цілей висновку. На мій досвід, не так часто бачити середнє = дисперсія, тому часто негативна біноміальна модель здається більш доцільною і включає Пуассона як особливий випадок.
Ще один момент, який важливий для тестування на дистрибуцію, якщо ви хочете це зробити, - це переконатися, що немає задіяних верств, які зробили б ваш спостережуваний розподіл сумішшю інших дистрибутивів. Окремі стратові розподіли можуть виявлятися Пуассоном, але спостережуваної суміші може не бути. Аналогічна ситуація з регресії передбачає лише те, що умовний розподіл Y | X нормально розподілений, а насправді не сам розподіл Y.
Ще один спосіб перевірити це - це квантильний квантильний сюжет. У R є qqplot. Це безпосередньо відображає ваші значення проти нормального розподілу з аналогічним середнім значенням та sd