Звідки береться в центральній граничній теоремі (CLT)?


36

Дуже проста версія центральної обмеженої теореми нижче що є Ліндебергом – Леві CLT. Я не розумію, чому на лівій стороні є . І Ляпунов CLT каже але чому не ? Хто-небудь сказав би мені, що це за фактори, такі \ sqrt {n} та \ frac {1} {s_n} ? як ми їх отримуємо в теоремі?n ( ( 1n n i=1Xi)-μ) d N(0,  σ 2 )

n((1ni=1nXi)μ) d N(0,σ2)
nn 1s n n i=1(Xi-μi) dN(0,  1 )
1sni=1n(Xiμi) d N(0,1)
s nsnnn 1с н1sn

3
Це пояснюється на сайті stats.stackexchange.com/questions/3734 . Ця відповідь довга, тому що вона вимагає "інтуїції". Він робить висновок: "Це просте наближення, однак, говорить про те, як де Моївр міг спочатку підозрювати, що існує універсальний обмежуючий розподіл, що його логарифм є квадратичною функцією, і що власне масштабний коефіцієнт повинен бути пропорційним .... " s nsnнn
whuber

1
Інтуїтивно зрозуміло, якщо всі то а 2-й рядок випливає з 1-го рядка: розділити на (звичайно умова Ляпунова, комбінація вимкнена все , інше питання)σ i = σ s n = σi=σσ 2 i =n σsn=σ2i=nσn ( ( 1n n i=1Xi)-μ)=1n ni=1(Xi-μ)dN(0, σ 2 )
n((1ni=1nXi)μ)=1ni=1n(Xiμ)d N(0,σ2)
σ = s nnσ=snn 1nni=1(Xi-μ)с нn =1s n n i=1(Xi-μi) dN(0, 1 ) σ i
1nni=1(Xiμ)snn=1sni=1n(Xiμi)d N(0,1)
σi
Секст Емпірік

Відповіді:


33

Приємне запитання (+1) !!

Ви пам’ятаєте, що для незалежних випадкових величин і , і . Отже, дисперсія є , а дисперсія є .X Y V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) V a r ( a X ) = a 2V a r ( X ) n i = 1 X i n i = 1 σ 2 = n σ 2 ˉXYVar(X+Y)=Var(X)+Var(Y)Var(aX)=a2Var(X)ni=1Xini=1σ2=nσ2X=1nni=1XiX¯=1nni=1Xinσ2/n2=σ2/nnσ2/n2=σ2/n

Це для дисперсії . Щоб стандартизувати випадкову величину, ви розділите її на стандартне відхилення. Як відомо, очікуване значення становить , тому зміннаˉXX¯μμ

ˉXE(ˉX)Var(ˉX)=nˉXμσ

X¯E(X¯)Var(X¯)=nX¯μσ
очікував значення 0 і дисперсію 1. Отже, якщо він схильний до гаусса, він повинен бути стандартним гауссовим . Ваше формулювання в першому рівнянні рівнозначне. Помноживши ліву частину на ви встановите дисперсію на .N(0,1)N(0,1)σσσ2σ2

Стосовно вашого другого пункту, я вважаю, що наведене вище рівняння ілюструє, що вам потрібно розділити на а не для стандартизації рівняння, пояснюючи, чому ви використовуєте (оцінювач а не .σσσσsnsnσ)σ)snsn

Додавання: @whuber пропонує обговорити причину масштабування за допомогою . Він це робить там , але оскільки відповідь дуже довгий, я спробую зафіксувати суть його аргументу (що є реконструкцією думок де Мойвра).nn

Якщо додати велику кількість + 1 та -1, можна приблизно оцінити ймовірність того, що сума буде , елементарним підрахунком. Журнал такої ймовірності пропорційний . Отже, якщо ми хочемо, щоб ймовірність вище перейшла в константу, оскільки стає великою, ми повинні використовувати нормалізуючий коефіцієнт в .nnjjj2/nj2/nnnO(n)O(n)

Використовуючи сучасні математичні засоби (post de Moivre), ви можете побачити згадане вище наближення, помітивши, що шукана ймовірність

P(j)=(nn/2+j)2n=n!2n(n/2+j)!(n/2j)!

P(j)=(nn/2+j)2n=n!2n(n/2+j)!(n/2j)!

яку ми наближаємо за формулою Стірлінга

P(j)nnen/2+jen/2j2nen(n/2+j)n/2+j(n/2j)n/2j=(11+2j/n)n+j(112j/n)nj.

P(j)nnen/2+jen/2j2nen(n/2+j)n/2+j(n/2j)n/2j=(11+2j/n)n+j(112j/n)nj.

log(P(j))=(n+j)log(1+2j/n)(nj)log(12j/n)2j(n+j)/n+2j(nj)/nj2/n.

log(P(j))=(n+j)log(1+2j/n)(nj)log(12j/n)2j(n+j)/n+2j(nj)/nj2/n.

Будь ласка, дивіться мої коментарі до попередніх відповідей Майкла К. та хлопця.
whuber

Схоже, перше рівняння (LL CLT) s / b ? Це мене також збентежило, що з'явилося як дисперсія. n((1nni=1Xi)μ) d N(0,1)n((1nni=1Xi)μ) d N(0,1)σ2σ2
B_Miner

Якщо ви параметризуєте гаусса із середнім значенням та дисперсією (не стандартним відхиленням), тоді я вважаю, що формула ОП є правильною.
gui11aume

1
А-а ... Надайте, що якщо множимо по ми отримуємо те, що було показано ОП ( cancel): а саме . Але ми знаємо, що VAR (aX) = a ^ 2Var (X), де в цьому випадку a = і Var (X) дорівнює 1, тож розподіл є . ˉXE(ˉX)Var(ˉX)=nˉXμσd N(0,1)X¯E(X¯)Var(X¯)=nX¯μσd N(0,1)ˉXE(ˉX)Var(ˉX)X¯E(X¯)Var(X¯)σσσσn((1nni=1Xi)μ)n((1nni=1Xi)μ)σ2σ2N(0,σ2)N(0,σ2)
B_Miner

Гі, якби не пізно, я хотів переконатися, що я це правильно. Якщо припустити і множимо на постійне ( ) очікуване значення цієї величини (тобто ), який дорівнював нулю, все одно дорівнює нулю, оскільки E [aX] = a * E [X] => * 0 = 0. Це правильно? ˉXE(ˉX)Var(ˉX)=n(ˉXμ)d N(0,1)X¯E(X¯)Var(X¯)=n(X¯μ)d N(0,1)σσn(ˉXμ)n(X¯μ)σσ
B_Miner

8

Існує приємна теорія того, який вид розподілів може бути обмежуючим розподілом сум випадкових величин. Приємним ресурсом є наступна книга Петрова, якою я особисто користувався величезною насолодою .

Виходить, що якщо ви досліджуєте межі цього типу де - незалежні випадкові величини, розподіл меж лише певні розподіли.1anni=1Xnbn,(1)

1ani=1nXnbn,(1)
XiXi

Тоді відбувається багато математики, яка зводиться до кількох теорем, що повністю характеризує те, що відбувається в межі. Одна з таких теорем обумовлена ​​Феллером:

Теорема Нехай - послідовність незалежних випадкових величин, - функція розподілу , - послідовність позитивної постійної. Для того щоб{Xn;n=1,2,...}{Xn;n=1,2,...}Vn(x)Vn(x)XnXnanan

max1knP(|Xk|εan)0, for every fixed ε>0

max1knP(|Xk|εan)0, for every fixed ε>0

і

supx|P(a1nnk=1Xk<x)Φ(x)|0

supxP(a1nk=1nXk<x)Φ(x)0

це необхідно і достатньо

nk=1|x|εandVk(x)0 for every fixed ε>0,

k=1n|x|εandVk(x)0 for every fixed ε>0,

a2nnk=1(|x|<anx2dVk(x)(|x|<anxdVk(x))2)1

a2nk=1n(|x|<anx2dVk(x)(|x|<anxdVk(x))2)1

і

a1nnk=1|x|<anxdVk(x)0.

a1nk=1n|x|<anxdVk(x)0.

Потім ця теорема дає вам уявлення про те, як має виглядати .anan

Загальна теорія в книзі побудована таким чином, що константа нормування будь-яким чином обмежена, але остаточні теореми, що дають необхідні та достатні умови, не залишають місця для нормування константою, окрім .nn


4

s являє собою стандартне відхилення вибірки для середнього зразка. s - дисперсія вибірки для середнього зразка і дорівнює S / n. Де S - вибіркова оцінка дисперсії популяції. Оскільки s = S / √n, це пояснює, як √n з'являється в першій формулі. Зауважимо, що в знаменнику було б σ, якби межа булаnnnn22nn22nn22nnnn

N (0,1), але межа задається як N (0, σ ). Оскільки S є послідовною оцінкою σ, то в рівнянні секунди використовується σ, виведена з межі.22nn


А як щодо іншої (більш основної та важливої) частини питання: чому а не якась інша міра дисперсності? snsn
whuber

@whuber Це може бути обговорено, але це не було частиною питання. ОП просто хотіла знати, чому s і √n з'являються у формулі для CLT. Звичайно, S є, тому що він відповідає σ і в такому вигляді CLT σ видаляється. nnnn
Майкл Р. Черник

1
Мені зовсім не зрозуміло, що s n присутній, тому що він "відповідає σ ". Чому це також не означає, скажімо, що s n слід використовувати для нормалізації статистики надзвичайних значень (яка б не працювала)? Я пропускаю щось просте і само собою зрозуміле? І, щоб повторити ОП, чому б не використати snσsnS п --after все, що відповідає дляsnσ ! σ
whuber

Як заявлена ​​теорема має збіжність до N (0,1), тому для досягнення цього вам або потрібно знати σ і використовувати її, або використовувати послідовну її оцінку, яка працює за теоремою Слуцького, я думаю. Невже мені це було незрозуміло?
Майкл Р. Черник

Я не думаю, що ти був незрозумілим; Я просто думаю, що важливий момент може бути відсутнім. Зрештою, для багатьох розподілів ми можемо отримати обмежувальний нормальний розподіл, використовуючи IQR замість s n -, але результат не такий акуратний (SD обмежувального розподілу залежить від розповсюдження, з якого ми починаємо). Я просто припускаю, що це заслуговує того, щоб викликати і пояснити. Це не буде настільки очевидним для того, хто не має інтуїції, розробленої за 40 років стандартизації всіх розподілів, з якими вони стикаються! sn
whuber

2

Інтуїтивно, якщо Z nN ( 0 , σ 2 ) для деякого σ 2 слід очікувати, що Var ( Z n ) приблизно дорівнює σ 2 ; це здається досить розумним очікуванням, хоча я взагалі не думаю, що це потрібно. Причина ZnN(0,σ2)σ2Var(Zn)σ2n у першому виразі полягає в тому, що дисперсія ˉ X n-μпереходить до0,як 1nX¯nμ0n і так1nn надуває дисперсію так, що вираз просто має дисперсію, рівнуσ2. У другому виразі термінsnвизначається якnn i = 1 Var ( X i ), тоді як дисперсія чисельника зростає як n i = 1 Var(Xi), тому ми знову маємо, що дисперсія всього виразу є постійною (1у цьому випадку).

По суті, ми знаємо, що щось «цікаве» відбувається з розподілом ˉ X n : = 1niXi, але якщо ми не будемо належним чином центрувати і масштабувати, ми не зможемо його побачити. Я чув, що описане іноді потребує регулювання мікроскопа. Якщо ми не підірвемо (наприклад) ˉ X -μнаn тоді у нас просто ˉ X n-μ0за розподілом за слабким законом; цікавий результат саме по собі, але не такий інформативний, як CLT. Якщо ми надуємо будь-яким факторомan, уякому переважаєп , ми все ще отримуємовп( ˉ X п-х)0а будь-який чинникпдомінуючаn даєan( ˉ X n-μ). Виходитьn - просто правильне збільшення, щоб можна було побачити, що відбувається в даному випадку (зауважте: вся конвергенція тут знаходиться в розподілі; є ще один рівень збільшення, який цікавий майже впевненою конвергенцією, що породжує закон ітераційного закону логарифм).


4
Більш фундаментальне питання, яке слід вирішити спочатку, - це те, чому СД використовується для вимірювання дисперсії. Чому б не абсолютний центральний k- й момент для деякого іншого значення k ? Або чому б не IQR чи хтось із його родичів? Після того, що відповідає, то прості властивості ковариации відразу дають n залежність (як нещодавно пояснив @ Gui11aume)
whuber

1
@whuber Я згоден, саме тому я представив це як евристичний. Я не впевнений, що це піддається простому поясненню, хоча я хотів би його почути. Для мене я не впевнений, що у мене є простіша, пояснювальна причина минулого, "оскільки квадратний термін є відповідним терміном у розширенні Тейлора характерної функції, коли ви віднімаєте середнє значення".
хлопець
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.