Нормальне наближення до розподілу Пуассона


12

Тут у Вікіпедії написано:

Для досить великих значень λ (скажімо λ>1000 ) нормальний розподіл із середнім λ та дисперсією λ (стандартне відхилення λ ) є відмінним наближенням до розподілу Пуассона. Якщо λ більше приблизно 10, то нормальний розподіл є хорошим наближенням, якщо проводиться відповідна корекція безперервності, тобто P(Xx), де (нижній регістр) x є невід’ємним цілим числом, замінюється на P(Xx+0.5).

FPoisson(x;λ)Fnormal(x;μ=λ,σ2=λ)

На жаль, це не цитується. Я хочу, щоб я мав змогу це показати / довести з деякою суворістю. Як ви насправді можете сказати, що нормальний розподіл є гарним наближенням, коли λ>1000 , як ви кількісно оцінюєте це "відмінне" наближення, які заходи використовували?

Найдальше у мене це є тут, де Джон розповідає про використання теореми Беррі – Ессіна та наближає помилку в двох CDF. З того, що я бачу, він не пробує жодних значень λ1000 .


6
Ви не можете довести це, не визначивши «добре». (Ви можете довести асимптотичний результат, але ви не можете оголосити його "хорошим" у конкретному розмірі вибірки без визначення ваших критеріїв.) Ви можете продемонструвати його поведінку прямим прикладом (з якого люди можуть бачити, як добре "добре" є за власними вогнями). Для типових критеріїв, які люди зазвичай використовують, корекція безперервності працює добре для тих пір, поки ви не заглибитесь у хвіст. λ>10
Glen_b -Встановіть Моніку

1
(Якщо бути більш конкретним, якщо ваш критерій абсолютна помилка, ви потенційно можете досягти "хорошого" скрізь при невеликих розмірах вибірки, як 10, але більшість людей піклується про щось, що ближче до відносної помилки)
Glen_b -Встановіть Моніку

Відповіді:


7

Припустимо, - Пуассон з параметром , а - нормальний із середнім і дисперсією . Мені здається, що відповідне порівняння між та . Тут для простоти я записую , тобто нас цікавить, коли відповідає стандартним відхиленням від середнього.XλYλPr ( Y [ n - 1)Pr(X=n)n=λ+αPr(Y[n12,n+12]) nαn=λ+αλnα

Так я обдурив. Я використав Mathematica. Отже, і і є асимптотичними до як . Але їх різниця асимптотична до Якщо ви побудуєте це як функцію , ви отримаєте ту саму криву, як показано на другій до останньої фігурі в http://www.johndcook.com/blog/normal_approx_to_poisson/ .Pr ( Y [ n - 1)Pr(X=n)1Pr(Y[n12,n+12])А& alpha(& alpha2-3)е-& alpha2/2

12πλeα2/2
λα
α(α23)eα2/262πλ
α

Ось команди, які я використав:

  n = lambda + alpha Sqrt[lambda];
  p1 = Exp[-lambda] lambda^n/n!;
  p2 = Integrate[1/Sqrt[2 Pi]/Sqrt[lambda] Exp[-(x-lambda)^2/2/lambda], {x, n-1/2, n+1/2}];
  Series[p1, {lambda, Infinity, 1}]
  Series[p2, {lambda, Infinity, 1}]

Також, трохи експериментуючи, мені здається, що кращим асимптотичним наближенням до є . Тоді помилка що приблизно в рази менше.Pr(X=n)Pr(Y[nα2/6,n+1α2/6])

(5α49α26)eα2/2722πλ3/2
λ

2

Glen_b правильний у тому, що "добре підходить" - це дуже суб'єктивне поняття. Однак якщо ви хочете переконатися, що розподіл пуассона є досить нормальним, ви можете використовувати гіпотетичний тест Колморгова-Смірнова з нульовою гіпотезою CDF походить від розподілу , якщо припустити ваш зразок буде надходити з пуассона ( ). Оскільки ви насправді не тестуєте зразок, а один розподіл проти іншого, вам потрібно добре подумати про розмір вибірки та рівень значущості, який ви припускаєте для цього гіпотетичного тесту (оскільки ми не використовуємо тест KS типовим чином). Це:H0:N(λ,λ)λ

  • Виберіть репрезентативний, гіпотетичний розмір вибірки, n та відрегулюйте рівень значущості тесту на типове значення, наприклад, 5%.

Тепер обчисліть коефіцієнт помилок типу II для цього тесту, припускаючи, що ваші дані фактично надходять з пуассона ( ). Ваша ступінь відповідності нормальному розподілу буде такою швидкістю помилок типу II, в тому сенсі, що зразки розміру n від вашого конкретного розподілу Пуассона в середньому будуть прийняті % часу тестом на нормальність KS у вибраному вами обраному рівень значущості.λβ

У будь-якому випадку, це лише один із способів досягти відчуття «корисності». Однак усі покладаються на деякі суб'єктивні уявлення про «добро», які вам доведеться визначити для себе.


2

Виведення з біноміального розподілу може отримати деяке розуміння.

У нас є біноміальна випадкова величина;

p(x)=(nx)px(1p)nx

Це також можна обчислювати рекурсивно;

p(x)=(nx+1)px(1p)p(x1)

Якщо ви збережете початковий стан;

p(0)=(1p)n

Тепер припустимо, що великий, а малий, але середній успіх є постійним . Тоді ми можемо зробити наступне;npp(x)(np=λ)

P(X=i)=(ni)px(1p)nx

Ми використовуємо, що .p=λ/n

P(X=i)=n!(ni)!i!(λn)i(1λn)ni

Ми переключаємо деякі змінні навколо і оцінюємо;

P(X=i)=n(n1)(n2)(ni+1)niλii!(1λn)n(1λn)i

З обчислення ми знаємо, що . Ми також знаємо, що тому що і верхній, і нижній є поліномами ступеня .limn(1+x/n)n=ex[n(n1)(n2)(ni+1)]/ni1i

Це призводить до висновку, що як :n

P(X=i)eλλii!

Потім ви можете перевірити, що та за допомогою визначення. Ми знаємо, що біноміальний розподіл наближається до норми за умов теореми Де-Мойвра-Лапласа до тих пір, поки ви виправляєте неперервність, через що замінюється на .E(X)=λVar(X)=λP ( X x ) P ( X x + 0,5 )P(Xx)P(Xx+0.5)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.