Існує нескінченна кількість способів, щоб розподіл трохи відрізнявся від розподілу Пуассона; ви не можете визначити , що набір даних буде взятий з розподілу Пуассона. Що ви можете зробити, це шукати невідповідність тому, що ви повинні бачити з Пуассоном, але відсутність очевидної непослідовності не робить його Пуассоном.
Однак те, про що ви говорите там, перевіряючи ці три критерії, - це не перевірка того, що дані надходять з пуассонівського розподілу статистичними засобами (тобто шляхом перегляду даних), а шляхом оцінки того, чи процес даних генерується, задовольняючи умови процесу Пуассона; якщо умови всі дотримуються або майже дотримуються (і це враховує процес генерування даних), у вас може виникнути щось із або дуже близького до процесу Пуассона, що, в свою чергу, буде способом отримання даних, отриманих із чогось близького до Розподіл Пуассона.
Але умови не витримуються кількома способами ... а найдальший з істинних - це номер 3. Немає конкретної причини на цій основі стверджувати процес Пуассона, хоча порушення можуть бути не такими поганими, що отримані дані далекі з Пуассона.
Тож ми повернулися до статистичних аргументів, які випливають з вивчення самих даних. Як дані показують, що розподіл був Пуассоном, а не чимось подібним?
Як було сказано на початку, те, що ви можете зробити, це перевірити, чи дані явно не суперечать базовому розподілу Пуассона, але це не говорить про те, що вони отримані з Пуассона (ви вже можете бути впевнені, що вони ні).
Ви можете зробити цю перевірку за допомогою тестів на придатність.
Згаданий квадрат-чі є одним із таких, але я сам не рекомендував би тест-квадрат для цієї ситуації **; він має низьку потужність проти цікавих відхилень. Якщо ваша мета - мати хорошу владу, ви не отримаєте це таким чином (якщо ви не піклуєтесь про владу, навіщо б ви тестувати?). Його основна цінність полягає у простоті, і вона має педагогічну цінність; поза цим він не є конкурентоспроможним як тест на придатність.
** Додано в подальшому редагуванні: Тепер, коли зрозуміло, що це домашнє завдання, шанси на те, що ви, як очікується, зробите тест на квадрат чи, щоб перевірити дані, не суперечать Поассону, зростає досить багато. Дивіться мій приклад чі-квадратного тесту на користь придатності, зробленого нижче першого сюжету Пуассонесса
Люди часто роблять ці тести з неправильної причини (наприклад, тому, що вони хочуть сказати: «отже, добре робити якусь іншу статистичну річ із даними, які передбачають, що дані є Пуассоном»). Справжнє питання: "як сильно неправильно це могло піти?" ... і корисність тестів на придатність насправді не допомагає в цьому питанні. Найчастіше відповідь на це питання - це в кращому випадку незалежний (/ майже незалежний) від розміру вибірки - а в деяких випадках той, який має наслідки, які мають тенденцію відходити від розміру вибірки ... в той час як корисність тесту на придатність марна невеликі зразки (коли ризик від порушення припущень часто є найбільшим).
Якщо вам потрібно перевірити наявність Пуассона, існує кілька розумних альтернатив. Можна було б зробити щось подібне до тесту Андерсона-Дарлінга, заснованого на статистиці AD, але з використанням модельованого розподілу під нулем (для врахування проблем-близнюків дискретного розподілу та необхідності оцінювання параметрів).
Більш простою альтернативою може бути плавний тест на придатність придатності - це сукупність тестів, розроблених для індивідуальних розподілів шляхом моделювання даних за допомогою сімейства поліномів, ортогональних щодо функції ймовірності в нулі. Альтернативи низького порядку (тобто цікаві) перевіряються, перевіряючи, чи коефіцієнти многочленів над базовим відрізняються від нуля, і зазвичай вони можуть мати справу з оцінкою параметрів, опускаючи з тесту найменші умови порядку. Є таке випробування для Пуассона. Я можу викопати посилання, якщо вам це потрібно.
Ви також можете використовувати кореляцію (або, більше схожу на тест Шапіро-Франсіа, можливо, ) в графіку Пуассонесса - наприклад, графік vs (див. Hoaglin, 1980) - як тестова статистика.log ( x k ) + log ( k ! ) kn ( 1 - r2)журнал( хк) + журнал( к ! )к
Ось приклад цього розрахунку (та графіку), зробленого в R:
y=rpois(100,5)
n=length(y)
(x=table(y))
y
0 1 2 3 4 5 6 7 8 9 10
1 2 7 15 19 25 14 7 5 1 4
k=as.numeric(names(x))
plot(k,log(x)+lfactorial(k))
Ось статистика, яку я запропонував, може бути використана для тесту на придатність пуассона:
n*(1-cor(k,log(x)+lfactorial(k))^2)
[1] 1.0599
Звичайно, для обчислення р-значення вам також потрібно буде моделювати розподіл тестової статистики під нульовим значенням (і я не обговорював, як можна мати справу з нульовими підрахунками всередині діапазону значень). Це повинно дати досить потужний тест. Існують численні інші альтернативні тести.
Ось приклад того, як зробити графік Пуассонса на вибірці розміром 50 з геометричного розподілу (p = .3):
Як бачите, він відображає чіткий «перегин», що вказує на нелінійність
Посилання на сюжет Пуассонесса:
Девід К. Хоаглін (1980),
"Сюжет про Пуассонність",
Американський статистик
Вол. 34, № 3 (серп.,), Стор 146-149
і
Hoaglin, Д. і Дж Тьюки (1985),
"9. Перевірка форми дискретних розподілів",
вивчення таблиць даних, тенденції та форми ,
(Hoaglin, Мостеллер & Таки EdS)
John Wiley & Sons
Друга посилання містить коригування сюжету для невеликих підрахунків; ви, ймовірно, хочете включити його (але я не маю довідки про це).
Приклад виконання тесту на придатність чи-квадрата:
Окрім виконання чі-квадратної користі пристосування, так, як зазвичай слід було б зробити у багатьох класах (хоча не так, як я це зробив):
1: починаючи з ваших даних (які я візьму за дані, які я випадковим чином генерується в 'y' вище), генерую таблицю підрахунків:
(x=table(y))
y
0 1 2 3 4 5 6 7 8 9 10
1 2 7 15 19 25 14 7 5 1 4
2: обчислити очікуване значення у кожній комірці, припускаючи, що Пуассон, встановлений ML:
(expec=dpois(0:10,lambda=mean(y))*length(y))
[1] 0.7907054 3.8270142 9.2613743 14.9416838 18.0794374 17.5008954 14.1173890 9.7611661
[9] 5.9055055 3.1758496 1.5371112
3: зауважте, що кінцеві категорії невеликі; це робить розподіл чі-квадрата менш хорошим, як наближення до розподілу тестової статистики (загальне правило - ви хочете, щоб очікувані значення принаймні були 5, хоча численні статті показали, що це правило є зайвим обмежувальним; я візьму його близько, але загальний підхід може бути адаптований до більш суворого правила). Згорнути суміжні категорії, так що мінімальні очікувані значення принаймні не надто далеко нижче 5 (одна категорія з очікуваним відліком близько 1 з понад 10 категорій не надто погана, дві досить межі). Також зауважте, що ми ще не врахували ймовірність, що перевищує "10", тому нам також потрібно включити:
expec[1]=sum(expec[1:2])
expec[2:8]=expec[3:9]
expec[9]=length(y)-sum(expec[1:8])
expec=expec[1:9]
expec
sum(expec) # now adds to n
4: аналогічно, згортання категорій у спостережуваному:
(obs=table(y))
obs[1]=sum(obs[1:2])
obs[2:8]=obs[3:9]
obs[9]=sum(obs[10:11])
obs=obs[1:9]
( Оi- Еi)2/Єi
print(cbind(obs,expec,PearsonRes=(obs-expec)/sqrt(expec),ContribToChisq=(obs-expec)^2/expec),d=4)
obs expec PearsonRes ContribToChisq
0 3 4.618 -0.75282 0.5667335
1 7 9.261 -0.74308 0.5521657
2 15 14.942 0.01509 0.0002276
3 19 18.079 0.21650 0.0468729
4 25 17.501 1.79258 3.2133538
5 14 14.117 -0.03124 0.0009761
6 7 9.761 -0.88377 0.7810581
7 5 5.906 -0.37262 0.1388434
8 5 5.815 -0.33791 0.1141816
Х2= ∑i( Єi- Оi)2/ Єi
(chisq = sum((obs-expec)^2/expec))
[1] 5.414413
(df = length(obs)-1-1) # lose an additional df for parameter estimate
[1] 7
(pvalue=pchisq(chisq,df))
[1] 0.3904736
І діагностика, і значення p показують відсутність придатності тут ... чого ми очікували, оскільки отримані нами дані були насправді Пуассоном.
Редагувати: ось посилання на блог Ріка Вікліна, який обговорює змову Пуассонесса, та розповідає про реалізацію в SAS та Matlab
http://blogs.sas.com/content/iml/2012/04/12/the-poissonness-plot-a-goodness-of-fit-diagnostic/
Edit2: Якщо я маю право, видозмінений сюжет Пуассонса з посилання 1985 року буде *:
y=rpois(100,5)
n=length(y)
(x=table(y))
k=as.numeric(names(x))
x=as.vector(x)
x1 = ifelse(x==0,NA,ifelse(x>1,x-.8*x/n-.67,exp(-1)))
plot(k,log(x1)+lfactorial(k))
* Вони також коригують перехоплення, але я цього ще не робив; це не впливає на зовнішній вигляд сюжету, але вам потрібно подбати, якщо ви реалізуєте щось інше з посилання (наприклад, довірчі інтервали), якщо ви робите це зовсім інакше, ніж їх підхід.
(Для наведеного вище прикладу зовнішність майже не змінюється від першого сюжету Пуассонесса.)