Чим розподіл Пуассона відрізняється від нормального розподілу?


29

Я створив вектор, який має розподіл Пуассона так:

x = rpois(1000,10)

Якщо я роблю гістограму за допомогою hist(x), розподіл виглядає як звичний звичайний розподіл у формі дзвоника. Однак тест Колмогорова-Смірноффа, який використовує, ks.test(x, 'pnorm',10,3)говорить, що розподіл суттєво відрізняється від звичайного розподілу через дуже мале pзначення.

Отже, моє запитання: чим розподіл Пуассона відрізняється від нормального розподілу, коли гістограма виглядає настільки схожою на звичайний розподіл?


Також (як доповнення до відповіді Девіда): прочитайте це ( stats.stackexchange.com/a/2498/603 ) і встановіть розмір вибірки на 100 та побачите різницю.
user603

Відповіді:


20
  1. Розподіл Пуассона є дискретним, тоді як нормальний розподіл безперервний, а випадкова величина Пуассона завжди> = 0. Таким чином, тест Колгоморова-Смірнова часто зможе визначити різницю.

  2. Коли середнє значення розподілу Пуассона велике, воно стає подібним до нормального розподілу. Однак, rpois(1000, 10)навіть не дивиться , що схоже на нормальний розподіл (вона зупиняється на 0 , а правий хвіст занадто довгий).

  3. Чому ви порівняєте це, ks.test(..., 'pnorm', 10, 3)а не ks.test(..., 'pnorm', 10, sqrt(10))? Різниця між 3 і невеликий, але сам по собі змінить порівняння розподілів. Навіть якби розподіл справді був нормальним, ви отримаєте антиконсервативне розподілення p-значень:10

    set.seed(1)
    
    hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
    

введіть тут опис зображення


3
Часто люди побачать щось неясно симетричне і вважають, що це виглядає «нормально». Я підозрюю, що те, що бачив @Ross.
Fraijo

2
Зауважте, що тест на KS зазвичай передбачає постійні розподіли, тому покладання на повідомлену p-величину в цьому випадку може (також) бути дещо підозрілою.
кардинал

1
Правда: біг hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))демонструє, що тест, який порівнював два однакові розподіли Пуассона, був би занадто консервативним.
Девід Робінсон


17

Ось набагато простіший спосіб зрозуміти це:

Ви можете розглядати біноміальний розподіл як "матір" більшості дистрибутивів. Нормальний розподіл - це лише наближення біноміального розподілу, коли n стає досить великим. Насправді, Авраам де Мойвре, по суті, виявив нормальний розподіл, намагаючись наблизити біноміальний розподіл, оскільки він швидко виходить з ладу для обчислення біноміального розподілу, оскільки п росте особливо, коли у вас немає комп'ютерів ( довідка ).

Розподіл Пуассона - це ще одне наближення біноміального розподілу, але воно набагато краще, ніж нормальне розподіл, коли n великий і p малий, а точніше, коли середнє значення приблизно таке ж, як дисперсія (пам’ятайте, що для біноміального розподілу середнє = np та var = np (1-p)) ( довідник ). Чому саме ця ситуація така важлива? Мабуть, це дуже багато в реальному світі, і тому ми маємо це "особливе" наближення. Нижче на прикладі проілюстровані сценарії, коли наближення Пуассона справді чудово працює.

Приклад

У нас є центр обробки даних на 100 000 комп'ютерів. Вірогідність того, що будь-який комп’ютер сьогодні не працює, становить 0,001. Тому в середньому np = 100 комп'ютерів виходять з ладу в центрі обробки даних. Яка ймовірність того, що сьогодні вийдуть з ладу лише 50 комп’ютерів?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

Насправді, якість наближення для нормального розподілу зменшується, коли ми йдемо в хвіст розподілу, але Пуассон продовжує триматися дуже добре. У наведеному вище прикладі розглянемо, яка ймовірність того, що сьогодні вийдуть з ладу лише 5 комп’ютерів?

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

Сподіваємось, це дає вам краще інтуїтивне розуміння цих трьох розподілів.


Яка дивовижна і чудова відповідь! Дуже дякую. :)
Бора М. Альпер

11

λnpnpn=λ/n

Один досить тривалий розвиток можна знайти в цьому блозі .

XnBinomial(n,λ/n) k

P(Xn=k)=n!k!(nk)!(λn)k(1λn)nk=n!nk(nk)!1λkk!(1λ/n)neλ(1λ/n)k1.

nk

P(Xn=k)eλλkk!,
n(1λ/n)neλ

npdN(np,np(1p))nppn=λ/n0λn


(+1) Ласкаво просимо на сайт. Я зробив кілька правок; перевірте, чи я не вніс жодних помилок у процесі. Я був не зовсім впевнений, що робити з останньої фрази в останньому реченні. Деякі додаткові роз'яснення там можуть бути корисними.
кардинал

1
npnλpλ

1
nλpn1/2

Спасибі. Я бачу, що ви намагалися сказати зараз. Я, як правило, погоджуюсь із застереженням про те, що потрібно бути обережним щодо співвідношення між параметрами, які вважаються фіксованими та які змінюються в порівнянні з іншими. :)
кардинал

λ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.