Ця відповідь сподівається надати інтуїтивному значенню теореми про центральну межу, використовуючи прості методи обчислення (розширення Тейлора порядку 3). Ось контур:
- Що говорить CLT
- Інтуїтивний доказ CLT з використанням простого обчислення
- Чому нормальний розподіл?
Ми згадаємо про нормальний розподіл в самому кінці; тому що той факт, що нормальний розподіл зрештою настає, не несе великої інтуїції.
1. Що говорить центральна межа теореми? Кілька версій CLT
Існує кілька еквівалентних версій CLT. Заява підручника CLT говорить, що для будь-якого реального та будь-якої послідовності незалежних випадкових змінних з нульовою середньою та дисперсією 1,
Щоб зрозуміти, що є універсальним та інтуїтивним щодо CLT, давайте забудемо на мить межу. Вищенаведене твердження говорить про те, що якщо і це дві послідовності незалежних випадкових величин, кожна з нульовою середньою та дисперсією 1, то
xX1,⋯,Xn
P(X1+⋯+Xnn−−√≤x)→n→+∞∫x−∞e−t2/22π−−√dt.
X1.,…,XnZ1,…,ZnE[f(X1+⋯+Xnn√)]−E[f(Z1+⋯+Znn√)]→n→+∞0
для кожної функції індикатора форми, для деякого фіксованого реального ,
Попередній дисплей втілює факт, що межа є однаковою незалежно від розподілу і , за умови, що випадкові величини незалежні із середнім нулем, дисперсією.
fxf(t)={1 if t<x0 if t≥x.
X1,…,XnZ1,…,Zn
Деякі інші версії CLT згадують клас функцій Lipschtiz, які обмежені 1; деякі інші версії CLT згадують клас гладких функцій із обмеженою похідною порядку . Розглянемо дві послідовності і як зазначено вище, а для деякої функції - результат конвергенції (CONV)kX1,…,XnZ1,…,Znf
E[f(X1+⋯+Xnn√)]−E[f(Z1+⋯+Znn√)]→n→+∞0(CONV)
Можна встановити еквівалентність ("якщо і тільки якщо") між наступними твердженнями:
- (CONV) вище виконується для кожної функції індикатора вигляду для і для для деякого фіксованого реального .ff(t)=1t<xf(t)=0t≥xx
- (ИЗМ) має місце для будь-якої обмеженої функції Ліпшиця .f:R→R
- (CONV) утримується для всіх гладких (тобто ) функцій з компактною підтримкою.C∞
- (CONV) виконується для кожної функції тричі безперервно диференціюється з .fsupx∈R|f′′′(x)|≤1
Кожен із 4 пунктів вище говорить про те, що конвергенція стосується великого класу функцій. За аргументом технічного наближення можна показати, що чотири вище точки є рівнозначними, ми посилаємося на читача до глави 7, стор. 77 книги Девіда Полларда . Посібник користувача для вимірювання теоретичних ймовірностей, з яких ця відповідь сильно надихається.
Наше припущення щодо решти цієї відповіді ...
Будемо вважати, що для деякої постійної , що відповідає точці 4 вище. Будемо також вважати, що випадкові змінні мають кінцевий, обмежений третій момент: та
є кінцевими.supx∈R|f′′′(x)|≤CC>0E[|Xi|3]E[|Zi|3]
2. Значення є універсальним: воно не залежить від розподілуE[f(X1+⋯+Xnn√)]X1,...,Xn
Покажемо, що ця кількість є універсальною (аж до невеликої помилки), в тому сенсі, що вона не залежить від того, який збір незалежних випадкових величин був наданий. Візьміть і дві послідовності незалежних випадкових величин, кожна зі середнім 0 та дисперсією 1, та кінцевим третім моментом.X1,…,XnZ1,…,Zn
Ідея полягає в тому, щоб повторно замінити на на одну з кількості і контролювати різницю за базовим численням (я вважаю, що це пов'язано з Ліндебергом). За допомогою розширення Тейлора, якщо , і то
where andXiZiW=Z1+⋯+Zn−1h(x)=f(x/n−−√)
h(Z1+⋯+Zn−1+Xn)h(Z1+⋯+Zn−1+Zn)=h(W)+Xnh′(W)+X2nh′′(W)2+X3n/h′′′(Mn)6=h(W)+Znh′(W)+Z2nh′′(W)2+Z3nh′′′(M′n)6
MnM′nє середніми точками, заданими теоремою середнього значення. Приймаючи очікування в обох рядках, термін нульового порядку однаковий, умови першого порядку рівні в очікуванні, оскільки незалежність і , і аналогічно для другого рядка. Знову ж таки незалежність, умови другого порядку в очікуванні однакові. Залишилися лише члени третього порядку, і в очікуванні різниця між двома рядками не більше
Тут - верхня межа третьої похідної . З'являється знаменник , оскільки
XnWE[Xnh′(W)]=E[Xn]E[h′(W)]=0(C/6)E[|Xn|3+|Zn|3](n−−√)3.
Cf′′′(n−−√)3h′′′(t)=f′′′(t/n−−√)/(n−−√)3 .
За незалежності внесок у суму є безглуздим, оскільки його можна було б замінити не помилки, більшої за вищезазначений дисплей!XnZn
Тепер знову підтверджуємо заміну на . Якщо то
Незалежністю і , а також незалежністю іXn−1Zn−1W~=Z1+Z2+⋯+Zn−2+Xn
h(Z1+⋯+Zn−2+Xn−1+Xn)h(Z1+⋯+Zn−2+Zn−1+Xn)=h(W~)+Xn−1h′(W~)+X2n−1h′′(W~)2+X3n−1/h′′′(M~n)6=h(W~)+Zn−1h′(W~)+Z2n−1h′′(W~)2+Z3n−1/h′′′(M~n)6.
Zn−1W~Xn−1W~, знову ж таки, нульовий, перший та другий порядки, рівні в очікуванні для обох рядків. Різниця в очікуванні між двома рядками знову не більше
Ми продовжуємо повторювати, поки не замінили всі на . Додаючи помилки, зроблені на кожному з кроків, отримуємо
як
(C/6)E[|Xn−1|3+|Zn−1|3](n−−√)3.
ZiXin∣∣E[f(X1+⋯+Xnn√)]−E[f(Z1+⋯+Znn√)]∣∣≤n(C/6)maxi=1,…,nE[|Xi|3+|Zi|3](n−−√)3.
nзбільшується, права сторона стає довільно малою, якщо треті моменти або випадкові величини є кінцевими (припустимо, що це так). Це означає, що очікування зліва стають довільно близькими один до одного, незалежно від того, чи розподіл далеко не .
За незалежністю внесок кожного в суму є безглуздим, оскільки його можна було замінити без помилки, більшої за .
І заміна всіх на не змінює величину більш ніж на .
X1,…,XnZ1,…,ZnXiZiO(1/(n−−√)3)XiZiO(1/n−−√)
Таким чином, очікування є універсальним, воно не залежить від розподілу . З іншого боку, незалежність і мали надзвичайно важливе значення для вищезазначених меж.E[f(X1+⋯+Xnn√)]X1,…,XnE[Xi]=E[Zi]=0,E[Z2i]=E[X2i]=1
3. Чому нормальний розподіл?
Ми бачили, що очікування буде однаковим, незалежно від розподілу , аж до мала помилка порядку .E[f(X1+⋯+Xnn√)]XiO(1/n−−√)
Але для програм було б корисно обчислити таку кількість. Було б також корисним отримати простіший вираз для цієї величини .E[f(X1+⋯+Xnn√)]
Оскільки ця кількість однакова для будь-якої колекції , ми можемо просто вибрати одну конкретну колекцію так, що розподіл легко обчислити або легко запам'ятати.X1,…,Xn(X1+⋯+Xn)/n−−√
Для нормального розподілу буває, що ця величина стає дійсно простою. Дійсно, якщо є то також має розподіл і це не залежить від ! Отже, якщо , то
і за вищенаведеним аргументом для будь-якої колекції незалежних випадкових змінних з , тодіN(0,1)Z1,…,ZnN(0,1)Z1+⋯+Znn√N(0,1)nZ∼N(0,1)
E[f(Z1+⋯+Znn−−√)]=E[f(Z)],
X1,…,XnE[Xi]=0,E[X2i]=1
∣∣∣E[f(X1+⋯+Xnn−−√)]−E[f(Z)∣∣∣≤supx∈R|f′′′(x)|maxi=1,…,nE[|Xi|3+|Z|3]6n−−√.