Якщо не Пуассон, то який розподіл це?


11

У мене є набір даних, що містить кількість дій, здійснених особами протягом 7 днів. Конкретна дія не повинна відповідати цьому питанню. Ось деякі описові статистичні дані для набору даних:

Дальність0-772Середній18.2Варіантність2791 рікКількість спостережень696

Ось гістограма даних: гістограма дії

Судячи з джерела даних, я вважав, що це буде відповідати розподілу Пуассона. Однак середня ≠ дисперсія та гістограма сильно зважують зліва. Крім того, я пройшов goodfitтест на R і отримав:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

Метод максимальної ймовірності також дав p-значення = 0. Припустимо, що нульова гіпотеза така: дані відповідають розподілу Пуассона (документація цього не визначає), то goodfitтест говорить, що ми повинні відкинути нульову гіпотезу, тому дані не відповідати розподілу Пуассона.

Це правильний аналіз? Якщо так, який розподіл, на вашу думку, відповідатиме цим даним?

Моя кінцева мета - порівняти середню кількість дій між двома зразками, щоб побачити, чи відрізняються засоби; чи потрібна перевірка розподілу? Я розумію, що типові тести (тести z-, t-, ) не працюють для пуассонівських розподілів. Який тест слід використовувати, якщо дані дійсно розподілені Поассоном?χ2


Ви вже пробували негативний біном? Чи допомогло це?
Рік

@Richard, я спробував негативний біном, і це не підходило. Дякую за пропозиції. Оскільки я не міг зрозуміти, що це за розподіл, я вирішив проігнорувати розподіл і перейти до непараметричного тесту, тесту Манна-Вітні U.
Dcook

Ще одне зауваження щодо сміття. У en.wikipedia.org/wiki/Negative_binomial_distribution ви бачите формулу для середнього та дисперсійного, а також . Таке це мало б сенс? Якщо ні, то є ще більше доказів того, що neg bin тут не є хорошою моделлю (якщо ми віримо в оцінювачі моменту). меан/vаriанcе=1-pp
Рік

Я не думаю, що концепція судового процесу Бернуллі застосовується в моєму випадку. Немає концепції успіху чи невдачі; суб'єкти або виконують дію, що цікавить, або не роблять. Вони не намагаються і не зазнають невдач. Тому думка про ймовірність успіху не має сенсу. Якщо випробування не є одиницею часу. Але тоді нічого не заважає суб'єкту виконати кілька дій у той період часу.
Dcook

ви найкраще знаєте, як інтерпретувати свої дані. Я просто хотів нагадати вам, що neg.bin. виникає як пуассонова суміш (якщо слідує за гамма-розподілом. Таким чином, можна інтерпретувати так само, як у випадку Пуассона. Але я не хочу вас змушувати :). Ще один коментар: якщо суб'єкт може виконати кілька дій за один момент часу: чи не може це бути складеним Пуассоном / NegBin? Скажіть, будь ласка, чи хочете ви більше зауважень з цього приводу. лмабга
Рік

Відповіді:


8

Якщо дисперсія більша за середню, то це називається наддисперсією. Природною моделлю для цього є негативний біноміальний розподіл. Це також можна розглядати як розподіл Пуассона, де лямбда Параметра слідує за розподілом Гамма. Першим і простим кроком може бути встановлення негативного біноміального розподілу.


5

Якщо ваші дані про кількість підрахунків не схожі на розповсюдження Пуассона, то вам щось не вистачає. Можливо, кількість дій залежить від температури, тому в спекотні дні люди роблять менше речей. Тоді коливання температури протягом періоду дослідження вплине на розподіл і зробить його не-пуассонським.

Однак кількість дій кожного дня все ж може бути Пуассоном із середньою залежністю від температури. Якщо у вас температура щодня, то ви можете робити GLM, регресуючи кількість дій у вигляді змінної Пуассона, залежно від температури. Якщо це добре підходить, робота виконана.

Якщо у вас немає можливих пояснювальних змінних, тоді все, що ви можете сказати, - «відбувається щось інше - кількість дій не залежить від незалежних проб Пуассона» - тобто відкиньте свою нульову гіпотезу.

Існують тести без розподілу, які можуть порівнювати парні спостереження, використовуючи ранжирування тощо. Зазвичай вони роблять велику кількість перестановок і обчислюють тестову статистику ...


4

І ще одне: Ви також повинні досліджувати людей, що переживають люди, і за кількістю даних. У вас є один підрахунок на 400-іш і тоді нічого до 800-іш. Це, мабуть, не підходить жодній із поширених моделей.


1

Здається, ви рахуєте кількість нульових подій - якщо так, то ви можете розглянути модель ZIP (або перешкода) - для огляду зверніться до моделей регресії для даних про підрахунок у R від Zeileis et al.

Приблизно підсумовуючи, ці методи моделюють нульові підрахунки окремо від решти підрахунків, які можуть бути корисні у вашому випадку.

Перегляньте psclпакет та функції zeroinfl()та hurdle()функції.


1

Я підозрюю, що ваша гістограма обманюється оманливо. Якщо у вас трохи більше 300 спостережень, рівномірно розподілених по діапазону 0-50, приблизно 320 рівномірно розподілених у межах діапазону 50-100 і 50 або більше вище 100, середнє значення повинно бути значно більше 18,2.

Якщо дані в діапазоні 0-50 не є рівномірно розповсюдженими, а зосередженими поблизу нуля, то дивлячись більше в діапазоні 50-100, ніж у діапазоні 0-50, дивує.

Можливо, у вас суміш розподілів. Я сумніваюся, що хтось може зробити багато з цим без фактичних 696 спостережень і особливо, не знаючи більше про контекст. Чи кожне із 696 спостережень є індивідуальним і чи відповідає відповідним числом дій, які кожен вчинив? Якщо так, то чи є в даних різні типи осіб?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.