Яке інтуїтивне пояснення існує для теореми про центральну межу?


144

У кількох різних контекстах ми посилаємося на центральну граничну теорему, щоб обґрунтувати будь-який статистичний метод, який ми хочемо прийняти (наприклад, апроксимувати біноміальний розподіл звичайним розподілом). Я розумію технічні деталі того, чому теорема є правдивою, але мені тільки що прийшло в голову, що я не дуже розумію інтуїцію, що стоїть за центральною граничною теоремою.

Отже, яка інтуїція стоїть за центральною граничною теоремою?

Пояснення щодо неспеціалістів були б ідеальними. Якщо потрібні якісь технічні деталі, припустіть, що я розумію поняття pdf, cdf, випадкової змінної тощо, але не маю знань про поняття конвергенції, характерні функції або що-небудь спільне з теорією вимірювань.


8
Хорошим питанням, хоча моя негайна реакція, підкріплена моїм обмеженим досвідом викладання цього, є те, що CLT спочатку не є інтуїтивно зрозумілим для більшості людей. Якщо що, це контрінтуїтивно!
onestop

2
@onestop AMEN! дивлячись на біноміальне розподіл з p = 1/2, коли n збільшується, показує, що CLT ховається - але інтуїція до цього завжди уникала мене.
ronaf

2
Подібне запитання з деякими приємними ідеями: stats.stackexchange.com/questions/643/…

1
Не пояснення, але таке моделювання може бути корисним для його розуміння.
Девід Лейн

Відповіді:


119

Я заздалегідь прошу вибачення за тривалість цієї посади: я з певним побоюванням випускаю її на публіці взагалі, тому що для читання потрібен певний час і увагу, і, безсумнівно, є типографічні помилки та прогалини у сховищах. Але ось це для тих, хто цікавиться захоплюючою темою, пропонуючи з надією, що це спонукає вас визначити одну чи декілька з багатьох частин CLT для подальшого опрацювання у ваших власних відповідях.


Більшість спроб "пояснити" CLT - це ілюстрації чи просто перестановки, які стверджують, що це правда. Справді проникливе, правильне пояснення повинно було б пояснити дуже багато речей.

Перш ніж розглядати це далі, давайте будемо зрозуміти, що говорить CLT. Як ви всі знаєте, існують версії, які відрізняються за своєю загальністю. Загальний контекст - це послідовність випадкових змінних, які є певними видами функцій у загальному просторі ймовірностей. Для інтуїтивно зрозумілих пояснень, які суворо тримаються, я вважаю корисним уявити про простір ймовірностей як коробку з різними предметами. Не має значення, що це за об'єкти, але я назву їх "квитками". Ми робимо одне «спостереження» за коробкою, ретельно перемішуючи квитки та оформляючи один; цей квиток є спостереженням. Записавши його для подальшого аналізу, ми повертаємо квиток у вікно, щоб його вміст залишався незмінним. В основному "випадкова змінна" - це число, записане на кожному квитку.

У 1733 році Авраам де Моївр розглянув випадок єдиної скриньки, де цифри в квитках є лише нулями та одиницями ("випробування Бернуллі"), причому деякі з кожного номера присутні. Він уявляв собі фізично незалежних спостережень, отримуючи послідовність значень , всі з яких дорівнюють нулю або одиниці. Сума цих значень, , є випадковим , так як члени в сумі є. Тому, якби ми могли повторити цю процедуру багато разів, різні суми (цілі числа від до ) з'являлися з різними частотами - пропорціями від загальної суми. (Див. Гістограми нижче.)x 1 , x 2 , , x n y n = x 1 + x 2 + + x n 0 nnx1,x2,,xnyn=x1+x2++xn0n

Тепер можна було б очікувати - і це правда - що при дуже великих значеннях всі частоти були б зовсім маленькими. Якби ми повинні були бути настільки сміливим (чи нерозумно), щоб спробувати «взяти межа» або «хай перейти до », ми б правильно зробити висновок , що всі частоти зводяться до . Але якщо ми просто намалюємо гістограму частот, не звертаючи ніякої уваги на те, як маркуються її осі, ми бачимо, що гістограми для великих всі починають виглядати однаково: у певному сенсі ці гістограми наближаються до межі, навіть якщо частоти самі всі йдуть до нуля.n 0 nnn0n

Гістограми

Ці гістограми зображають результати повторення процедури отримання багато разів. - "кількість випробувань" у заголовках. nynn

Розуміння тут полягає в тому, щоб спочатку намалювати гістограму та позначити її осі пізніше . При великій гістограма охоплює великий діапазон значень, орієнтованих навколо (на горизонтальній осі) та зникаючий малий інтервал значень (на вертикальній осі), оскільки окремі частоти зростають зовсім невеликими. Тому встановлення цієї кривої в графічну область вимагало як зміщення, так і зміни шкали гістограми. Математичний опис цього полягає в тому, що для кожного ми можемо вибрати деяке центральне значення (не обов'язково унікальне!) Для позиціонування гістограми та деяке значення масштабуn / 2 n m n s n y n z n = ( y n - m n ) / s nnn/2nmnsn(не обов'язково унікальний!), щоб він змістився в межах осей. Це можна зробити математично, змінивши на .ynzn=(ynmn)/sn

Пам'ятайте, що гістограма представляє частоти за областями між нею та горизонтальною віссю. Отже, можливу стійкість цих гістограм для великих значень слід визначати за площею. n a b > a n z n ( a , b ] Отже, виберіть будь-який інтервал значень, який вам подобається, скажімо, від до і, по мірі збільшення відслідковуйте площу частини гістограми яка горизонтально охоплює інтервал . CLT стверджує кілька речі:ab>anzn(a,b]

  1. Незалежно від того, що таке і ,b ab якщо ми обираємо послідовності і відповідним чином (таким чином, що взагалі не залежить від або ), ця область дійсно наближається до межі, оскільки стає великою.s n a b nmnsnabn

  2. Послідовності та можна вибрати таким чином, який залежить лише від , середнього значення у полі та деякого показника поширення цих значень - але нічого іншого - так що незалежно від того, що знаходиться у полі , межа завжди однакова. (Ця властивість універсальності дивовижна.)s n nmnsnn

  3. Зокрема, що обмежуюча область - це площа під кривою між і : це формула цієї універсальної обмежуючої гістограми. aby=exp(z2/2)/2πab

    Перше узагальнення CLT додає,

  4. Коли вікно може містити цифри на додаток до нулів та одиниць, точно такі самі висновки (за умови, що пропорції надзвичайно великих чи малих чисел у полі не "занадто великі", критерій, який має точне та просте кількісне висловлення) .

    Наступне узагальнення, і, мабуть, найдивовижніше, замінює цю єдину коробку квитків упорядкованим нескінченно довгим набором ящиків з квитками. Кожна скринька може мати різні номери на своїх квитках у різних пропорціях. Спостереження проводиться шляхом витягування квитка з першого поля, надходить з другого поля тощо.х 2x1x2

  5. Точно такі ж висновки мають місце за умови, що вміст полів "не надто різний" (є кілька точних, але різних кількісних характеристик того, що має означати "не надто різне"; вони дозволяють вражати величиною широти).

Ці п'ять тверджень, як мінімум, потребують пояснення. Є ще більше. Деякі інтригуючі аспекти налаштування містяться в усіх твердженнях. Наприклад,

  • У чому особливість суми ? Чому ми не маємо центральних граничних теорем для інших математичних комбінацій чисел, таких як їх добуток чи максимум? (Виявляється, ми це робимо, але вони не настільки загальні і не мають завжди такого чистого, простого висновку, якщо їх не можна звести до CLT.) Послідовності і не є унікальними, але вони майже унікальні в тому сенсі, що в кінцевому підсумку вони повинні наблизити очікування суми квитків і стандартного відхилення суми відповідно (що в перших двох заявах CLT дорівнює разів більше стандартного відхилення ящик). s n n mnsnnn

    Стандартне відхилення - це одна міра поширення значень, але це аж ніяк не єдина, і не є найбільш "природною", ні історично, ні для багатьох застосувань. (Багато людей обрали б, наприклад, середнє абсолютне відхилення від медіани , наприклад.)

  • Чому SD з'являється таким суттєвим чином?

  • Розглянемо формулу обмежувальної гістограми: хто міг би очікувати, що вона прийме таку форму? Він говорить, що логарифм щільності ймовірності є квадратичною функцією. Чому? Чи є якесь інтуїтивне чи чітке, переконливе пояснення цьому?


Зізнаюся, я не в змозі досягти остаточної мети - дати відповіді, які є досить простими, щоб відповідати складним критеріям Шріканта щодо інтуїтивності та простоти, але я намалював цей фон у надії, що інші можуть бути натхненні заповнити деякі з багатьох прогалин. Я думаю, що для гарної демонстрації в кінцевому рахунку доведеться покладатися на елементарний аналіз того, як можуть виникати значення між та при формуванні суми . Повернувшись до однофазної версії CLT, випадок симетричного розподілу простіший в управлінні: його медіана дорівнює його середній, тому існує 50% шансів, що буде меншим за середнє значення коробки, і 50% шансів, щоβ n = b s n + m n x 1 + x 2 + + x n x i x i nαn=asn+mnβn=bsn+mnx1+x2++xnxixiбуде більше його середнього значення. Більше того, коли досить велике, позитивні відхилення від середнього значення повинні компенсувати негативні відхилення в середньому. (Це вимагає ретельного обґрунтування, а не просто розмахування рукою.) Таким чином, нам слід перейматися насамперед підрахунком кількості позитивних та негативних відхилень і мати лише вторинну стурбованість щодо їх розмірів.n (З усього, що я написав тут, це може бути найкориснішим, коли я маю певну інтуїцію щодо того, чому працює CLT. Дійсно, технічні припущення, необхідні, щоб зробити узагальнення CLT по суті, є різними способами виключення можливості того, що рідкісні величезні відхилення будуть порушувати рівновагу достатньо, щоб запобігти появі обмежувальної гістограми.)

Це так чи інакше показує, чому перше узагальнення CLT насправді не виявляє нічого, що не було в оригінальній пробній версії Бернуллі де Моєрре.

На даний момент схоже, що для цього немає нічого, крім того, щоб зробити трохи математики: нам потрібно порахувати кількість різних способів, за якими кількість позитивних відхилень від середнього може відрізнятися від кількості негативних відхилень на будь-яке заздалегідь задане значення , де очевидно є одним із . Але оскільки зникаючі невеликі помилки зникнуть в межі, нам не доведеться точно рахувати; нам потрібно лише наблизити підрахунки. Для цього достатньо це знатиk - n , - n + 2 , , n - 2 , nkkn,n+2,,n2,n

The number of ways to obtain k positive and nk negative values out of n

equals nk+1k

times the number of ways to get k1 positive and nk+1 negative values.

(Це абсолютно елементарний результат, тому я не буду намагатися записувати виправдання.) Тепер ми орієнтуємося на оптовий продаж. Максимальна частота виникає, коли максимально наближений до (також елементарного). Запишемо . Тоді відносно максимальної частоти частота позитивних відхилень ( ) оцінюється добуткомn / 2 m = n / 2 m + j + 1 j 0kn/2m=n/2m+j+1j0

m+1m+1mm+2mj+1m+j+1

=11/(m+1)1+1/(m+1)12/(m+1)1+2/(m+1)1j/(m+1)1+j/(m+1).

За 135 років до того, як де Моївр писав, Джон Неп'є винайшов логарифми для спрощення множення, тож давайте скористаємося цим. Використовуючи наближення

log(1x1+x)2x,

ми знаходимо, що журнал відносної частоти приблизно

2/(m+1)4/(m+1)2j/(m+1)=j(j+1)m+1j2m.

Оскільки сукупна помилка пропорційна , це повинно працювати добре, якщо є невеликим відносно . Це охоплює більший діапазон значень ніж потрібно. (Для апроксимації достатньо працювати для лише в порядку який асимптотично набагато менший, ніж .)j 4 m 3 j j j4/m3j4m3jj м 3 / 4mm3/4


Очевидно, що набагато більше подібного аналізу слід подати, щоб виправдати інші твердження в CLT, але мені не вистачає часу, простору та енергії, і я, мабуть, втратив 90% людей, які все-таки почали це читати. Це просте наближення, однак, говорить про те, як де Моєвр міг спочатку підозрювати, що існує універсальний обмежуючий розподіл, що його логарифм є квадратичною функцією і що власне масштабний коефіцієнт повинен бути пропорційним (тому що ).snnj2/m=2j2/n=2(j/n)2 Важко уявити, як можна пояснити цю важливу кількісну залежність, не посилаючись на якусь математичну інформацію та міркування; все менше залишало б точну форму обмежувальної кривої повною загадкою.


5
+1 Це знадобиться мені певний час, щоб перебрати вашу відповідь. Я визнаю, що просити інтуїцію для CLT в рамках обмежень, які я наклав, може бути майже неможливим.

2
Дякую, що знайшли час, щоб написати це, це найкорисніша експозиція CLT, яку я бачив, що також дуже математично доступна.
jeremy radcliff

1
Так, досить щільно .... стільки питань. Як у першої гістограми є 2 бари (було лише 1 пробу!); чи можу я просто проігнорувати це? І конвенція зазвичай уникати горизонтальних зазорів між прутами гістограми, правильно? (тому що, як ви кажете, площа важлива, і площа в підсумку буде обчислена протягом безперервного (тобто немає прогалин) домену)? Тож я ігнорую прогалини теж ...? Навіть у мене були прогалини, коли я вперше спробував це зрозуміти :)
Червоний горох

1
@TheRed Дякую за запитання. Я відредагував першу частину цього повідомлення, щоб зробити ці моменти трохи зрозумілішими.
whuber

4
Ага, так, я переплутав "кількість випробувань = =" спостережень "" з "кількість разів (ця вся процедура) повторюється". Отже, якщо у квитка може бути лише значення двох значень, 0 або 1 , і ви спостерігаєте лише один квиток, сума цих цінностей квитків може бути лише однією з двох речей: 0 або 1 . Отже, у вашої першої гістограми є дві смужки. Більше того, ці бруски приблизно рівні за висотою, оскільки ми очікуємо, що 0 і 1 відбуватимуться в рівних пропорціях. n
Червоний горох

27

Найприємніша анімація, яку я знаю: http://www.ms.uky.edu/~mai/java/stat/GaltonMachine.html

8 горизонтальних шарів однаково розташованих штифтів, кожен шар ухиляючись, призводить до перешкод у стилі "пачінко / пінбол" для куль, що опускаються через ці шпильки.  Кожна куля падає внизу, і коли кулі укладаються, їх висота наближається до обрису кривої Гаусса.  Це ілюструє, що сума багатьох незалежних випадкових подій (шарів) призведе до розподілу результатів Гаусса (висота складеної кулі)

Найпростіші слова, які я прочитав: http://elonen.iki.fi/articles/centrallimit/index.en.html

Якщо підсумувати результати цих десяти кидків, то, що ви отримаєте, швидше за все, буде ближче до 30-40, ніж максимальне, 60 (усі шістдесят) або, з іншого боку, мінімум, 10 (усі).

Причиною цього є те, що ви можете отримати середні значення набагато іншими способами, ніж крайні. Приклад: при киданні двох кубиків: 1 + 6 = 2 + 5 = 3 + 4 = 7, але лише 1 + 1 = 2 і лише 6 + 6 = 12.

Тобто: хоч ви отримуєте будь-яке з шести чисел однаково ймовірними при киданні однієї матриці, крайні показники є менш вірогідними, ніж середні значення в сумах кількох кісток.


20

Інтуїція - справа хитра. Це навіть складніше з теорією в наших руках, зав'язаних за спиною.

CLT - це вся сума крихітних незалежних порушень. "Суми" у розумінні вибірки означають, "крихітні" у значенні кінцевої дисперсії (популяції) та "порушення" у значенні плюс / мінус навколо центрального (популяційного) значення.

Для мене пристроєм, який найбільше звертається до інтуїції, є квінкункс, або «коробка Галтона», див. Вікіпедія (для «бобової машини»?) Ідея полягає в тому, щоб згорнути крихітну кульку вниз обличчям дошки, прикрашеної решіткою. однаково розташованих штифтів. Під час руху вниз куля відхиляється вправо і вліво (... випадковим чином, незалежно) і збирається внизу. З часом ми бачимо приємну форму дзвіниці у формі дзвіночка прямо перед очима.

CLT говорить те саме. Це математичний опис цього явища (точніше, квінкункс є фізичним свідченням нормального наближення до біноміального розподілу). Чітко кажучи, CLT говорить про те, що поки наше населення не надто поводиться (тобто якщо хвости PDF-файлу є досить тонкими), то середній зразок (правильно масштабований) поводиться так само, як маленький кулька, що підстрибує обличчя quincunx: іноді він падає зліва, іноді відпадає праворуч, але більшу частину часу він приземляється прямо навколо середини, у приємній формі дзвоника.

Величність CLT (на мене) полягає в тому, що форма основного населення не має значення. Форма відіграє лише певну роль, оскільки делегує час, який нам потрібно чекати (у розумінні розміру вибірки).


17

Спостереження щодо CLT може бути наступним. Коли у вас є сума безлічі випадкових компонентів, якщо одна "менша, ніж зазвичай", то це в основному компенсується тим, що деякі інші компоненти є "більшими, ніж зазвичай". Іншими словами, негативні відхилення та позитивні відхилення від компонента означає скасування один одного у підсумовуванні. Особисто я не маю чіткої інтуїції, чому саме решта відхилень утворюють розподіл, який виглядає все нормальніше і більше, ніж більше термінів.

S=X1+X2++Xn

Існує багато версій CLT, деякі сильніші за інші, деякі з послабленими умовами, такими як помірна залежність між термінами та / або не ідентичні розподіли для термінів. У найпростішому випадку до довести версії ЦПТА, доказ, як правило , на основі функції моменту генеруючої (або перетворення Лапласа-Стілтьєса або який - або інше відповідне перетворення щільності) суми . Якщо записати це як розширення Тейлора і зберегти лише найбільш домінуючий термін, то ви створюєте функцію, що генерує момент, нормального розподілу. Тож для мене особисто нормальність - це те, що випливає з купки рівнянь, і я не можу надати більше інтуїції, ніж це.S

Слід зазначити, однак, що розподіл суми ніколи насправді не розподіляється нормально, і CLT не стверджує, що це було б. Якщо кінцеве, все-таки існує деяка відстань до нормального розподілу, і якщо і середнє, і дисперсійне значення також нескінченні. В останньому випадку ви можете взяти середнє значення нескінченної суми, але тоді ви отримаєте детерміноване число без будь-якої різниці, яке навряд чи можна було б позначити як "нормально розподілене".nn=

Це може спричинити проблеми з практичним застосуванням CLT. Зазвичай, якщо вас цікавить розподіл поблизу від його центру, CLT працює добре. Однак конвергенція до нормальної скрізь не рівномірна і чим далі ви відходите від центру, тим більше термінів потрібно мати розумне наближення.S/n

При всій "святості" теоретики про центральну межу в статистиці часто обмежуються її обмеження. Нижче я даю два слайди з мого курсу, вказуючи на те, що CLT абсолютно не спрацьовує в хвостах, у будь-якому випадку практичного використання. На жаль, багато людей спеціально використовують CLT для оцінки ймовірності хвоста, свідомо чи іншим чином.

введіть тут опис зображення введіть тут опис зображення


5
Це чудова матеріальна і мудра порада. Я, на жаль, не можу це підтвердити, тому що твердження в "Ця нормальність є математичним артефактом, і я вважаю, що не корисно шукати жодної глибшої істини чи інтуїції", що викликає глибоке занепокоєння. Вони, здається, підказують, що (1) ми не повинні покладатися на математику, щоб нам теоретично допомогти, і (2) розуміння математики в першу чергу не має сенсу. Я сподіваюся, що інші посади в цій темі вже пройдуть довгий шлях до спростування другого твердження. Перший настільки неузгоджений, що навряд чи підлягає подальшому аналізу.
whuber

2
@whuber. Ви маєте рацію, можливо, я поза моєю лігою. Я відредагую.
StijnDeVuyst

3
Дякуємо за перегляд проблемної частини та великий +1 для решти.
whuber

7

Ця відповідь сподівається надати інтуїтивному значенню теореми про центральну межу, використовуючи прості методи обчислення (розширення Тейлора порядку 3). Ось контур:

  1. Що говорить CLT
  2. Інтуїтивний доказ CLT з використанням простого обчислення
  3. Чому нормальний розподіл?

Ми згадаємо про нормальний розподіл в самому кінці; тому що той факт, що нормальний розподіл зрештою настає, не несе великої інтуїції.

1. Що говорить центральна межа теореми? Кілька версій CLT

Існує кілька еквівалентних версій CLT. Заява підручника CLT говорить, що для будь-якого реального та будь-якої послідовності незалежних випадкових змінних з нульовою середньою та дисперсією 1, Щоб зрозуміти, що є універсальним та інтуїтивним щодо CLT, давайте забудемо на мить межу. Вищенаведене твердження говорить про те, що якщо і це дві послідовності незалежних випадкових величин, кожна з нульовою середньою та дисперсією 1, то xX1,,Xn

P(X1++Xnnx)n+xet2/22πdt.
X1.,,XnZ1,,Zn
E[f(X1++Xnn)]E[f(Z1++Znn)]n+0
для кожної функції індикатора форми, для деякого фіксованого реального , Попередній дисплей втілює факт, що межа є однаковою незалежно від розподілу і , за умови, що випадкові величини незалежні із середнім нулем, дисперсією.fx
f(t)={1 if t<x0 if tx.
X1,,XnZ1,,Zn

Деякі інші версії CLT згадують клас функцій Lipschtiz, які обмежені 1; деякі інші версії CLT згадують клас гладких функцій із обмеженою похідною порядку . Розглянемо дві послідовності і як зазначено вище, а для деякої функції - результат конвергенції (CONV)kX1,,XnZ1,,Znf

(CONV)E[f(X1++Xnn)]E[f(Z1++Znn)]n+0

Можна встановити еквівалентність ("якщо і тільки якщо") між наступними твердженнями:

  1. (CONV) вище виконується для кожної функції індикатора вигляду для і для для деякого фіксованого реального .ff(t)=1t<xf(t)=0txx
  2. (ИЗМ) має місце для будь-якої обмеженої функції Ліпшиця .f:RR
  3. (CONV) утримується для всіх гладких (тобто ) функцій з компактною підтримкою.C
  4. (CONV) виконується для кожної функції тричі безперервно диференціюється з .fsupxR|f(x)|1

Кожен із 4 пунктів вище говорить про те, що конвергенція стосується великого класу функцій. За аргументом технічного наближення можна показати, що чотири вище точки є рівнозначними, ми посилаємося на читача до глави 7, стор. 77 книги Девіда Полларда . Посібник користувача для вимірювання теоретичних ймовірностей, з яких ця відповідь сильно надихається.

Наше припущення щодо решти цієї відповіді ...

Будемо вважати, що для деякої постійної , що відповідає точці 4 вище. Будемо також вважати, що випадкові змінні мають кінцевий, обмежений третій момент: та є кінцевими.supxR|f(x)|CC>0E[|Xi|3]E[|Zi|3]

2. Значення є універсальним: воно не залежить від розподілуE[f(X1++Xnn)]X1,...,Xn

Покажемо, що ця кількість є універсальною (аж до невеликої помилки), в тому сенсі, що вона не залежить від того, який збір незалежних випадкових величин був наданий. Візьміть і дві послідовності незалежних випадкових величин, кожна зі середнім 0 та дисперсією 1, та кінцевим третім моментом.X1,,XnZ1,,Zn

Ідея полягає в тому, щоб повторно замінити на на одну з кількості і контролювати різницю за базовим численням (я вважаю, що це пов'язано з Ліндебергом). За допомогою розширення Тейлора, якщо , і то where andXiZiW=Z1++Zn1h(x)=f(x/n)

h(Z1++Zn1+Xn)=h(W)+Xnh(W)+Xn2h(W)2+Xn3/h(Mn)6h(Z1++Zn1+Zn)=h(W)+Znh(W)+Zn2h(W)2+Zn3h(Mn)6
MnMnє середніми точками, заданими теоремою середнього значення. Приймаючи очікування в обох рядках, термін нульового порядку однаковий, умови першого порядку рівні в очікуванні, оскільки незалежність і , і аналогічно для другого рядка. Знову ж таки незалежність, умови другого порядку в очікуванні однакові. Залишилися лише члени третього порядку, і в очікуванні різниця між двома рядками не більше Тут - верхня межа третьої похідної . З'являється знаменник , оскількиXnWE[Xnh(W)]=E[Xn]E[h(W)]=0

(C/6)E[|Xn|3+|Zn|3](n)3.
Cf(n)3h(t)=f(t/n)/(n)3 . За незалежності внесок у суму є безглуздим, оскільки його можна було б замінити не помилки, більшої за вищезазначений дисплей!XnZn

Тепер знову підтверджуємо заміну на . Якщо то Незалежністю і , а також незалежністю іXn1Zn1W~=Z1+Z2++Zn2+Xn

h(Z1++Zn2+Xn1+Xn)=h(W~)+Xn1h(W~)+Xn12h(W~)2+Xn13/h(M~n)6h(Z1++Zn2+Zn1+Xn)=h(W~)+Zn1h(W~)+Zn12h(W~)2+Zn13/h(M~n)6.
Zn1W~Xn1W~, знову ж таки, нульовий, перший та другий порядки, рівні в очікуванні для обох рядків. Різниця в очікуванні між двома рядками знову не більше Ми продовжуємо повторювати, поки не замінили всі на . Додаючи помилки, зроблені на кожному з кроків, отримуємо як

(C/6)E[|Xn1|3+|Zn1|3](n)3.
ZiXin
|E[f(X1++Xnn)]E[f(Z1++Znn)]|n(C/6)maxi=1,,nE[|Xi|3+|Zi|3](n)3.
nзбільшується, права сторона стає довільно малою, якщо треті моменти або випадкові величини є кінцевими (припустимо, що це так). Це означає, що очікування зліва стають довільно близькими один до одного, незалежно від того, чи розподіл далеко не . За незалежністю внесок кожного в суму є безглуздим, оскільки його можна було замінити без помилки, більшої за . І заміна всіх на не змінює величину більш ніж на .X1,,XnZ1,,ZnXiZiO(1/(n)3)XiZiO(1/n)

Таким чином, очікування є універсальним, воно не залежить від розподілу . З іншого боку, незалежність і мали надзвичайно важливе значення для вищезазначених меж.E[f(X1++Xnn)]X1,,XnE[Xi]=E[Zi]=0,E[Zi2]=E[Xi2]=1

3. Чому нормальний розподіл?

Ми бачили, що очікування буде однаковим, незалежно від розподілу , аж до мала помилка порядку .E[f(X1++Xnn)]XiO(1/n)

Але для програм було б корисно обчислити таку кількість. Було б також корисним отримати простіший вираз для цієї величини .E[f(X1++Xnn)]

Оскільки ця кількість однакова для будь-якої колекції , ми можемо просто вибрати одну конкретну колекцію так, що розподіл легко обчислити або легко запам'ятати.X1,,Xn(X1++Xn)/n

Для нормального розподілу буває, що ця величина стає дійсно простою. Дійсно, якщо є то також має розподіл і це не залежить від ! Отже, якщо , то і за вищенаведеним аргументом для будь-якої колекції незалежних випадкових змінних з , тодіN(0,1)Z1,,ZnN(0,1)Z1++ZnnN(0,1)nZN(0,1)

E[f(Z1++Znn)]=E[f(Z)],
X1,,XnE[Xi]=0,E[Xi2]=1

|E[f(X1++Xnn)]E[f(Z)|supxR|f(x)|maxi=1,,nE[|Xi|3+|Z|3]6n.

Ви, здається, стверджуєте закон великої кількості, а не CLT.
whuber

1
Я не впевнений, чому ти це сказав, @whuber. Вищезазначене дає інтуїтивний доказ того, що сходиться до де для великого класу функцій . Це CLT. E[f((X1+...+Xn)/n)]E[f(Z)]ZN(0,1)f
jlewk

2
Я бачу, що ти маєш на увазі. Що дає мені паузу, це те, що ваше твердження стосується лише очікувань, а не розподілів, тоді як CLT робить висновки щодо обмежувального розподілу. Еквівалентність між цими двома може бути не очевидна багатьом. Чи можу я запропонувати вам надати чіткий зв'язок між вашою заявою та звичайними твердженнями CLT з точки зору обмеження розповсюдження? (+1 до речі: дякую, що ви розробили цей аргумент.)
блукання

1

Я відмовився від спроби придумати інтуїтивну версію і придумав кілька симуляцій. У мене є такий, який представляє моделювання Quincunx та деякі інші, які роблять такі речі, як показують, як навіть перекошений сирий розподіл часу реакції стане нормальним, якщо ви наберете достатню кількість RT на предмет. Я думаю, що вони допомагають, але вони нові в моєму класі цього року, і я ще не оцінив перший тест.

Одне, що я вважав гарним, це те, що я міг показати і закон великої кількості. Я міг би показати, як змінюються речі з малими розмірами вибірки, а потім показати, як вони стабілізуються з великими. Я також купую багато інших демо-версій. Я можу показати взаємодію в Quincunx між числами випадкових процесів і числами вибірок.

(виявляється, неможливість використання крейди або білої дошки у моєму класі може бути благом)


Привіт Джон: приємно бачити тебе з цією посадою після майже дев'яти років! Було б цікаво почитати про досвід, який ви мали тим часом з використанням симуляцій, щоб навчити ідеї CLT та LLN.
whuber

Через рік я припинив викладати цей клас, але наступний викладач підхопив ідею моделювання. Насправді він переносить це набагато далі і розробив послідовність блискучих додатків і змушує студентів грати з імітацією для навантажень речей у класі 250 осіб. Наскільки я можу сказати, навчаючи вищого класу, студенти, здається, отримують багато цього. Різниця між його учнями та студентами з рівнозначних фідерних класів помітна. (але, звичайно, там є безліч неконтрольованих змінних)
Іван

Дякую, Джон. Настільки незвично отримувати навіть анекдотичні відгуки про тривалість роботи учнів після закінчення заняття, що я знаходжу навіть цю обмежену цікаву інформацію.
whuber

-8

Коли ви додаєте багато гістограм випадкових розподілів разом, ви або підтримуєте нормальну форму розподілу, тому що всі окремі гістограми вже мають таку форму, або ви отримуєте цю форму, тому що коливання в окремих гістограмах, як правило, скасовують один одного, якщо додати великий кількість гістограм. Гістограма випадкового розподілу однієї змінної вже приблизно розподілена таким чином, що люди почали називати нормальний розподіл, оскільки це так часто, і це мікрокосм теореми про центральну межу.

Це ще не вся історія, але я думаю, це настільки інтуїтивно, як це стає.


2
Ваш опис "нормального розподілу" натомість звучить як дискретна версія подвійного експоненціалу, яка навіть далеко не схожа на нормальний розподіл Гаусса (за винятком випадків, коли вони є одномодовими та симетричними). Гістограма монети не має штрихів, які зменшуються в рази з кожним кроком! Це говорить про те, що у цьому поясненні можуть бути якісь труднощі, які були укладені закликом до "інтуїції". 2
whuber

5
Ця відповідь здебільшого є нісенітницею. Відсутність кількості обертів справедливої ​​монети призведе до розподілу кількості голів, які мають ймовірність ; насправді це навіть не ймовірність функції маси! Також кількість голів підряд не має нічого спільного з питанням. 18,14,12,14,18
Діліп Сарват
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.