Чому CLT не працює для


16

Отже, ми знаємо, що сума отрут з параметром λ сама по собі є пуассоном з n λ . Отже, гіпотетично можна взяти x p o i s s o n ( λ = 1 ) і сказати, що це насправді n 1 x ip o i s s o n ( λ = 1 ), де кожен x i є: x яп оnλnλxpoisson(λ=1)1nxipoisson(λ=1)xixipoisson(λ=1/n) , і прийняти великий пщоб отримати ЦПТ до роботи.

Це (очевидно) не працює. Я припускаю, що це має щось спільне з тим, як CLT працює "швидше" для випадкових змінних, які "ближче" до нормальних, і що чим менша лямбда, тим більше ми отримуємо випадкову змінну, яка здебільшого дорівнює 0 і рідко змінюється щось інше.

Однак те, що я пояснив, - це моя інтуїція. Чи є більш формальний спосіб пояснити, чому це так?

Спасибі!


6
Для початку, CLT потребує в вас , щоб розділити i=1nxi по n (у такому випадку ви зійдете до гаусса).
Алекс Р.

1
@AlexR. Якщо ви не ділите на n , то стандартне відхилення буде коефіцієнтом 1/n
Аксакал

4
Я не бачу, яке це питання стосується CLT "не працює". CLT стосується стандартизованих сум випадкових величин із заданим розподілом, тоді як ви берете одну випадкову змінну і розглядаєте нескінченно багато способів її поділу .
whuber

2
@AlexR Налаштування здається, що все неправильно. Тут відбуваються два різні процеси - підсумовування та поділ - і немає причин вважати, що вони повинні мати схожі асимптотичні характеристики.
whuber

3
@Aksakal: насправді AlexR є правильним. Якщо ділити на , ви отримаєте вироджене розподіл як n . Якщо розділити на nn , ви підходите до нормального розподілу з sd = 1, якn. nn
Кліф АВ

Відповіді:


13

Я погоджуюся з @whuber, що, здається, корінь плутанини замінює асимптотичний підсумок у CLT деяким поділом у вашому аргументі. У ЦПТ ми отримуємо фіксоване розподіл , то накреслити п числа х я з неї і обчислити суму ˙ х п = 1f(x,λ)nxi . Якщо ми продовжуємо збільшуватиn,то відбувається цікава річ: x¯n=1ni=1nxin деμ,σ2- середнє значення, а дисперсія розподілуf(x).

n(x¯nμ)N(0,σ2)
μ,σ2f(x)

Що ви пропонуєте робити з Пуассон трохи назад: замість підсумовування змінних з фіксованого розподілу, ви хочете розділити на фіксований розподіл в постійно змінюються частини. Іншими словами, ви берете змінну з фіксованого розподілу f ( x , λ ), а потім ділите її на x i так, що n i = 1 x ixxf(x,λ)xi

i=1nxix

Що CLT говорить про цей процес? Нічого. Зауважте, як у CLT ми колись змінюємось , і йогомінливийрозподілfn(x),що сходить дофіксованогорозподілуN(0,σ2)n(x¯nμ)fn(x)N(0,σ2)

У вашому налаштуванні ні сума ні його розподіл f ( x , λ ) не змінюються! Вони виправлені. Вони не змінюються, вони ні до чого не сходяться. Отже, CLT не має про що сказати.xf(x,λ)

Також CLT нічого не говорить про кількість елементів у сумі. Ви можете мати суму 1000 змінних від Пуассона (0,001), і CLT нічого не скаже про суму. Все, що вона говорить, - це те, що якщо ви продовжуєте збільшувати N, то в якийсь момент ця сума почне виглядати як звичайний розподіл . Насправді, якщо N = 1 000 000, ви отримаєте близьке наближення нормального розподілу.1Ni=1Nxi,xiPoisson(0.001)

Ваша інтуїція правильна лише щодо кількості елементів у сумі, тобто чим більше початковий розподіл відрізняється від звичайного, тим більше елементів потрібно підсумувати, щоб прийти в норму. Більш формальний (але все - таки неформальний) спосіб був би, дивлячись на характеристичної функції Пуассона: Якщо Х > > 1 , ви отримуєте з розкладанням Тейлора (WRT т ) вкладеного показника: exp ( i λ t - λ / 2 t 2

exp(λ(exp(it)1))
λ>>1t Це характерна функція нормального розподілу N ( λ , λ 2 )
exp(iλtλ/2t2)
N(λ,λ2)

Однак ваша інтуїція застосовується неправильно: ваше зміщення підсумовування в CLT якимось поділом псує речі і робить CLT непридатним.


+1 Заздалегідь заданий матеріал чітко сформульований, дуже чіткий і потрапляє до основи випуску.
whuber

7

Проблема з вашим прикладом полягає в тому, що ви дозволяєте параметрам змінюватися по мірі зміни . CLT повідомляє, що для фіксованого розподілу з кінцевим середнім і sd, як n ,nn

,xμndN(0,σ)

де і σ - від середнього і sd розподілу x .μσx

Звичайно, для різних розподілів (наприклад, для більш високих перекосів, наприклад) потрібні більші , перш ніж наближення, отримане з цієї теореми, стане розумним. У вашому прикладі, для λ т = 1 / м , з п > > т потрібно до нормального наближення розумно.nλm=1/mn>>m

EDIT

Існує дискусія про те, як CLT застосовується не до сум, а до стандартизованих сум (тобто неxi). Теоретично це, звичайно, вірно: нестандартна сума матиме неозначений розподіл у більшості випадків.xi/nxi

Однак на практиці ви, звичайно, можете застосувати наближення, виправдане CLT, до сум! Якщо можна наблизити звичайним CDF для великого n , то, безумовно, F x теж може, оскільки множення на скаляр зберігає нормальність. І ви можете побачити це відразу в цій проблемі: згадайте, що якщо X iP o i s ( λ ) , то Y = n i = 1 X iP o i s ( n λ )Fx¯nFxXiPois(λ)Y=i=1nXiPois(nλ). І ми всі дізналися з нашого ймовірного курсу верхнього поділу, що для великого CDF a P o i s ( λ ) може бути досить апроксимірован нормалом при μ = λ , σ 2 = λ . Тож для будь-якого фіксованого λ ми можемо досить добре наблизити CDF Y P o i s ( n λ ) з Φ ( y - n λλPois(λ)μ=λσ2=λ λYPois(nλ)для досить великогоn,якщоλ>0(наближення можна тривіально застосувати, якщоλ=0, але не обчислення CDF, як я його написав).Φ(ynλnλ)nλ>0λ=0

Хоча CLT легко не застосовується до сум, наближення, засноване на CLT, безумовно, має місце. Я вважаю, що саме про це йдеться в ОП, коли обговорювалося застосування CLT до суми.


5

Питання, я стверджую, цікавіше, якщо подумати про більш загальне, щоб розподіл батьківського Пуассона залежав від , скажімо, з параметрами λ n та λ n = 1 як особливий випадок. Я думаю, що цілком доцільно запитати, чому і як ми можемо це зрозуміти, центральна межа теореми не дотримується для суми S n = n i = 1 X i , n . Зрештою, звичайно застосовувати CLT навіть у задачах, коли розподіл компонентів суми залежить від nnλnλn=1Sn=i=1nXi,nn. It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.

Як я бачу, ключовим питанням є те, що ваша конструкція передбачає розподіл залежить від n таким чином, що параметр розподілу S n не зростає в n . Якщо ви замість цього взяли, наприклад, S nP o i ( n ) і зробили те саме розкладання, застосовується стандартний CLT. Насправді можна думати про багато декомпозицій розподілу P o i ( λ n ), що дозволяє застосовувати CLT.Xi,nnSnnSnPoi(n)Poi(λn)

The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out, SnPoi(1) for all n, so Sn cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.

A version of the theorem may be found in these notes by Hunter. Let sn2=Var(Sn). The Lindeberg-Feller condition is that, ϵ>0:

1sn2i=1nE[Xi,n1/n]2I(|Xi,n1/n|>ϵsn)0,n

Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in n that sn=1 for every n. For fixed n, we also have that the Xi,n are iid. Thus, the condition is equivalent to

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)0.

But, for small ϵ and large n,

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)>nϵ2P(X1,n>0)=ϵ2n[1e1/n]=ϵ2n[1(11/n+o(1/n))]=ϵ2+o(1),

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of Sn for every n, but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.


+1 This nicely illuminates a comment by @AlexR to the question, too.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.