Я заздалегідь прошу вибачення за тривалість цієї посади: я з певним побоюванням випускаю її на публіці взагалі, тому що для читання потрібен певний час і увагу, і, безсумнівно, є типографічні помилки та прогалини у сховищах. Але ось це для тих, хто цікавиться захоплюючою темою, пропонуючи з надією, що це спонукає вас визначити одну чи декілька з багатьох частин CLT для подальшого опрацювання у ваших власних відповідях.
Більшість спроб "пояснити" CLT - це ілюстрації чи просто перестановки, які стверджують, що це правда. Справді проникливе, правильне пояснення повинно було б пояснити дуже багато речей.
Перш ніж розглядати це далі, давайте будемо зрозуміти, що говорить CLT. Як ви всі знаєте, існують версії, які відрізняються за своєю загальністю. Загальний контекст - це послідовність випадкових змінних, які є певними видами функцій у загальному просторі ймовірностей. Для інтуїтивно зрозумілих пояснень, які суворо тримаються, я вважаю корисним уявити про простір ймовірностей як коробку з різними предметами. Не має значення, що це за об'єкти, але я назву їх "квитками". Ми робимо одне «спостереження» за коробкою, ретельно перемішуючи квитки та оформляючи один; цей квиток є спостереженням. Записавши його для подальшого аналізу, ми повертаємо квиток у вікно, щоб його вміст залишався незмінним. В основному "випадкова змінна" - це число, записане на кожному квитку.
У 1733 році Авраам де Моївр розглянув випадок єдиної скриньки, де цифри в квитках є лише нулями та одиницями ("випробування Бернуллі"), причому деякі з кожного номера присутні. Він уявляв собі фізично незалежних спостережень, отримуючи послідовність значень , всі з яких дорівнюють нулю або одиниці. Сума цих значень, , є випадковим , так як члени в сумі є. Тому, якби ми могли повторити цю процедуру багато разів, різні суми (цілі числа від до ) з'являлися з різними частотами - пропорціями від загальної суми. (Див. Гістограми нижче.)x 1 , x 2 , … , x n y n = x 1 + x 2 + … + x n 0 nnx1,x2,…,xnyn=x1+x2+…+xn0n
Тепер можна було б очікувати - і це правда - що при дуже великих значеннях всі частоти були б зовсім маленькими. Якби ми повинні були бути настільки сміливим (чи нерозумно), щоб спробувати «взяти межа» або «хай перейти до », ми б правильно зробити висновок , що всі частоти зводяться до . Але якщо ми просто намалюємо гістограму частот, не звертаючи ніякої уваги на те, як маркуються її осі, ми бачимо, що гістограми для великих всі починають виглядати однаково: у певному сенсі ці гістограми наближаються до межі, навіть якщо частоти самі всі йдуть до нуля.n ∞ 0 nnn∞0n
Ці гістограми зображають результати повторення процедури отримання багато разів. - "кількість випробувань" у заголовках. nynn
Розуміння тут полягає в тому, щоб спочатку намалювати гістограму та позначити її осі пізніше . При великій гістограма охоплює великий діапазон значень, орієнтованих навколо (на горизонтальній осі) та зникаючий малий інтервал значень (на вертикальній осі), оскільки окремі частоти зростають зовсім невеликими. Тому встановлення цієї кривої в графічну область вимагало як зміщення, так і зміни шкали гістограми. Математичний опис цього полягає в тому, що для кожного ми можемо вибрати деяке центральне значення (не обов'язково унікальне!) Для позиціонування гістограми та деяке значення масштабуn / 2 n m n s n y n z n = ( y n - m n ) / s nnn/2nmnsn(не обов'язково унікальний!), щоб він змістився в межах осей. Це можна зробити математично, змінивши на .ynzn=(yn−mn)/sn
Пам'ятайте, що гістограма представляє частоти за областями між нею та горизонтальною віссю. Отже, можливу стійкість цих гістограм для великих значень слід визначати за площею. n a b > a n z n ( a , b ] Отже, виберіть будь-який інтервал значень, який вам подобається, скажімо, від до і, по мірі збільшення відслідковуйте площу частини гістограми яка горизонтально охоплює інтервал . CLT стверджує кілька речі:ab>anzn(a,b]
Незалежно від того, що таке і ,b ab якщо ми обираємо послідовності і відповідним чином (таким чином, що взагалі не залежить від або ), ця область дійсно наближається до межі, оскільки стає великою.s n a b nmnsnabn
Послідовності та можна вибрати таким чином, який залежить лише від , середнього значення у полі та деякого показника поширення цих значень - але нічого іншого - так що незалежно від того, що знаходиться у полі , межа завжди однакова. (Ця властивість універсальності дивовижна.)s n nmnsnn
Зокрема, що обмежуюча область - це площа під кривою між і : це формула цієї універсальної обмежуючої гістограми. aby=exp(−z2/2)/2π−−√ab
Перше узагальнення CLT додає,
Коли вікно може містити цифри на додаток до нулів та одиниць, точно такі самі висновки (за умови, що пропорції надзвичайно великих чи малих чисел у полі не "занадто великі", критерій, який має точне та просте кількісне висловлення) .
Наступне узагальнення, і, мабуть, найдивовижніше, замінює цю єдину коробку квитків упорядкованим нескінченно довгим набором ящиків з квитками. Кожна скринька може мати різні номери на своїх квитках у різних пропорціях. Спостереження проводиться шляхом витягування квитка з першого поля, надходить з другого поля тощо.х 2x1x2
Точно такі ж висновки мають місце за умови, що вміст полів "не надто різний" (є кілька точних, але різних кількісних характеристик того, що має означати "не надто різне"; вони дозволяють вражати величиною широти).
Ці п'ять тверджень, як мінімум, потребують пояснення. Є ще більше. Деякі інтригуючі аспекти налаштування містяться в усіх твердженнях. Наприклад,
У чому особливість суми ? Чому ми не маємо центральних граничних теорем для інших математичних комбінацій чисел, таких як їх добуток чи максимум? (Виявляється, ми це робимо, але вони не настільки загальні і не мають завжди такого чистого, простого висновку, якщо їх не можна звести до CLT.) Послідовності і не є унікальними, але вони майже унікальні в тому сенсі, що в кінцевому підсумку вони повинні наблизити очікування суми квитків і стандартного відхилення суми відповідно (що в перших двох заявах CLT дорівнює разів більше стандартного відхилення ящик). s n n √mnsnnn−−√
Стандартне відхилення - це одна міра поширення значень, але це аж ніяк не єдина, і не є найбільш "природною", ні історично, ні для багатьох застосувань. (Багато людей обрали б, наприклад, середнє абсолютне відхилення від медіани , наприклад.)
Чому SD з'являється таким суттєвим чином?
Розглянемо формулу обмежувальної гістограми: хто міг би очікувати, що вона прийме таку форму? Він говорить, що логарифм щільності ймовірності є квадратичною функцією. Чому? Чи є якесь інтуїтивне чи чітке, переконливе пояснення цьому?
Зізнаюся, я не в змозі досягти остаточної мети - дати відповіді, які є досить простими, щоб відповідати складним критеріям Шріканта щодо інтуїтивності та простоти, але я намалював цей фон у надії, що інші можуть бути натхненні заповнити деякі з багатьох прогалин. Я думаю, що для гарної демонстрації в кінцевому рахунку доведеться покладатися на елементарний аналіз того, як можуть виникати значення між та при формуванні суми . Повернувшись до однофазної версії CLT, випадок симетричного розподілу простіший в управлінні: його медіана дорівнює його середній, тому існує 50% шансів, що буде меншим за середнє значення коробки, і 50% шансів, щоβ n = b s n + m n x 1 + x 2 + … + x n x i x i nαn=asn+mnβn=bsn+mnx1+x2+…+xnxixiбуде більше його середнього значення. Більше того, коли досить велике, позитивні відхилення від середнього значення повинні компенсувати негативні відхилення в середньому. (Це вимагає ретельного обґрунтування, а не просто розмахування рукою.) Таким чином, нам слід перейматися насамперед підрахунком кількості позитивних та негативних відхилень і мати лише вторинну стурбованість щодо їх розмірів.n (З усього, що я написав тут, це може бути найкориснішим, коли я маю певну інтуїцію щодо того, чому працює CLT. Дійсно, технічні припущення, необхідні, щоб зробити узагальнення CLT по суті, є різними способами виключення можливості того, що рідкісні величезні відхилення будуть порушувати рівновагу достатньо, щоб запобігти появі обмежувальної гістограми.)
Це так чи інакше показує, чому перше узагальнення CLT насправді не виявляє нічого, що не було в оригінальній пробній версії Бернуллі де Моєрре.
На даний момент схоже, що для цього немає нічого, крім того, щоб зробити трохи математики: нам потрібно порахувати кількість різних способів, за якими кількість позитивних відхилень від середнього може відрізнятися від кількості негативних відхилень на будь-яке заздалегідь задане значення , де очевидно є одним із . Але оскільки зникаючі невеликі помилки зникнуть в межі, нам не доведеться точно рахувати; нам потрібно лише наблизити підрахунки. Для цього достатньо це знатиk - n , - n + 2 , … , n - 2 , nkk−n,−n+2,…,n−2,n
The number of ways to obtain k positive and n−k negative values out of n
equals n−k+1k
times the number of ways to get k−1 positive and n−k+1 negative values.
(Це абсолютно елементарний результат, тому я не буду намагатися записувати виправдання.) Тепер ми орієнтуємося на оптовий продаж. Максимальна частота виникає, коли максимально наближений до (також елементарного). Запишемо . Тоді відносно максимальної частоти частота позитивних відхилень ( ) оцінюється добуткомn / 2 m = n / 2 m + j + 1 j ≥ 0kn/2m=n/2m+j+1j≥0
m+1m+1mm+2⋯m−j+1m+j+1
=1−1/(m+1)1+1/(m+1)1−2/(m+1)1+2/(m+1)⋯1−j/(m+1)1+j/(m+1).
За 135 років до того, як де Моївр писав, Джон Неп'є винайшов логарифми для спрощення множення, тож давайте скористаємося цим. Використовуючи наближення
log(1−x1+x)∼−2x,
ми знаходимо, що журнал відносної частоти приблизно
−2/(m+1)−4/(m+1)−⋯−2j/(m+1)=−j(j+1)m+1∼−j2m.
Оскільки сукупна помилка пропорційна , це повинно працювати добре, якщо є невеликим відносно . Це охоплює більший діапазон значень ніж потрібно. (Для апроксимації достатньо працювати для лише в порядку який асимптотично набагато менший, ніж .)j 4 m 3 j j √j4/m3j4m3jj м 3 / 4m−−√m3/4
Очевидно, що набагато більше подібного аналізу слід подати, щоб виправдати інші твердження в CLT, але мені не вистачає часу, простору та енергії, і я, мабуть, втратив 90% людей, які все-таки почали це читати. Це просте наближення, однак, говорить про те, як де Моєвр міг спочатку підозрювати, що існує універсальний обмежуючий розподіл, що його логарифм є квадратичною функцією і що власне масштабний коефіцієнт повинен бути пропорційним (тому що ).√snn−−√j2/m=2j2/n=2(j/n−−√)2 Важко уявити, як можна пояснити цю важливу кількісну залежність, не посилаючись на якусь математичну інформацію та міркування; все менше залишало б точну форму обмежувальної кривої повною загадкою.