Чому теорема центрального ліміту руйнується в моєму моделюванні?


21

Скажімо, у мене є такі цифри:

4,3,5,6,5,3,4,2,5,4,3,6,5

Я вибираю деякі з них, скажімо, 5 з них, і обчислюю суму 5 зразків. Потім я повторюю це знову і знову, щоб отримати багато сум, і я розміщую значення сум у гістограмі, яка буде гауссова завдяки теоремі центрального граничного значення.

Але коли вони слідують за номерами, я просто замінив 4 на якесь велике число:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

Відбір з 5 зразків цих зразків ніколи не стає гауссовим у гістограмі, а більше нагадує розкол і стає двома гауссами. Чому так?


1
Це не зробить цього, якщо ви збільшите його до n = 30 або близько того ... просто моя підозра та більш лаконічна версія / перезавантаження прийнятої відповіді нижче.
oemb1905

@JimSD CLT - це асимптотичний результат (тобто щодо розподілу стандартизованих вибіркових засобів або сум у межі, оскільки розмір вибірки йде до нескінченності). - це не . Те, на що ви дивитесь (підхід до нормальності у кінцевих зразках), є не строго результатом CLT, а супутнім результатом. n n=5n
Glen_b -Встановіть Моніку

3
@ oemb1905 n = 30 недостатньо для виду косості. Залежно від того, наскільки рідкісне це забруднення зі значенням, як , це може зайняти n = 60 або n = 100 або навіть більше, перш ніж нормальне виглядає розумним наближенням. Якщо забруднення становить близько 7% (як у питанні), n = 120 все ще дещо перекошене107
Glen_b -Встановіть Моніку


Подумайте, що значення в інтервалах типу (1 100 000, 1 900 000) ніколи не будуть досягнуті. Але якщо ви заробляєте на пристойну суму ці суми, це спрацює!
Девід

Відповіді:


18

Згадаймо точно, що говорить центральна межа теореми.

Якщо є незалежними та однаково розподіленими випадковими змінними із (спільним) середнім та стандартним відхиленням , то переходить у розподілі до стандартного нормального розподілу (*).X1,X2,,XkμσX1+X2++XkkσkN(0,1)

Це часто використовується в "неофіційній" формі:

Якщо є незалежними та однаково розподіленими випадковими змінними із (спільним) середнім та стандартним відхиленням , то "у розподіл" до стандартного нормального розподілу .X1,X2,,XkμσX1+X2++XкN(кмк,кσ)

Немає хорошого способу зробити таку форму CLT математично точною, оскільки "обмеження" розподілу змінюється, але це корисно на практиці.

Коли ми маємо статичний список подібних чисел

4,3,5,6,5,3,10000000,2,5,4,3,6,5

і ми відбираємо вибірку, взявши випадково число з цього списку, щоб застосувати центральну граничну теорему, ми повинні бути впевнені, що наша схема вибірки відповідає цим двом умовам незалежності та однаково розподілена.

  • Ідентично розподілений не є проблемою: кожне число у списку однаково вірогідне.
  • Незалежне є більш тонким і залежить від нашої схеми вибірки. Якщо ми беремо вибірку без заміни , то ми порушуємо незалежність. Лише тоді, коли ми проводимо вибірку із заміною, застосовується центральна гранична теорема.

Отже, якщо ми використовуємо із заміною вибірки у вашій схемі, тоді ми повинні мати можливість застосувати центральну граничну теорему. У той же час ви маєте рацію, якщо наш зразок розміру 5, ми будемо спостерігати дуже різну поведінку залежно від того, чи обрано дуже велику кількість чи не обрано в нашому зразку.

Отже, що таке руб? Ну, швидкість конвергенції до нормального розподілу дуже залежить від форми сукупності, з якої ми відбираємо вибірку, зокрема, якщо наша популяція дуже перекошена, ми очікуємо, що пройде багато часу, щоб перейти до нормального. Це в нашому прикладі, тому ми не повинні сподіватися, що вибірки розміром 5 є достатньою для відображення нормальної структури.

Три нормальних розподілу

Вище я повторив ваш експеримент (із заміною відбору проб) для зразків розміром 5, 100 та 1000. Ви можете бачити, що нормальна структура виникає для дуже великих зразків.

(*) Зауважте, тут потрібні деякі технічні умови, наприклад, кінцева середня величина та дисперсія. Вони легко підтверджуються, що вони є правдивими в нашому відборі із прикладу списку.


Дякую за дуже швидку та ідеальну відповідь. Ідея CLT, заміна, потреба в більшій кількості вибірок, коли розподіл даних перекошений, ... Це зараз дуже зрозуміло. Мій початковий намір питання - так само, як ви згадали, випадок, коли одна велика кількість включається без заміни і фіксується кількість вибірки. Він поводиться дуже по-різному, і тому нам потрібно розглянути "умовний" CLT для випадку, що велика кількість відбирається, а випадок не відбирається. Цікаво, чи є для цього якісь дослідження чи попередня робота .. Але все одно дякую.
JimSD

не знаю, чи застосовна тут, але теорема конвергенції CLT регулюється
косостістю

Я трохи збентежений визначенням @ MatthewDrury CLT. Я думаю, що переходить до константи за LLN, а не до нормального розподілу. Хкк
JTH

1
@ seanv507 абсолютний третій момент, а не косоокість; обидва пов'язані, але зауважте, що для симетричного розподілу з кінцевим третім моментом, який Беррі-Ессен пов'язав нане 0, тому що не є |Жн(х)-Φ(х)|ρ/σ3
косою

1
@Glen_b Yah, я був трохи неформальним (що, можливо, я не повинен був бути), але я можу це виправити сьогодні вдень, оскільки це призвело до трохи плутанини.
Метью Друрі

12

Загалом, розмір кожного зразка повинен бути більше 5 щоб наближення CLT було хорошим. Велике правило - зразок розміром 30 і більше. Але, з населенням вашого першого прикладу, 5 добре.

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

введіть тут опис зображення

У вашому другому прикладі, через форму розподілу населення (з одного боку, він занадто сильно перекошений; читайте коментарі хлопця та Glen_b внизу), навіть зразки розміром не дадуть вам хорошого наближення до розподілу середнє значення вибірки з використанням CLT.30

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

введіть тут опис зображення

Але з цією другою сукупністю зразки, скажімо, розміром є нормальними.100

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

введіть тут опис зображення


3
Проблема не в тій дисперсії. Одним із способів отримання жорсткого контролю є використання відношення третього центрального моменту до стандартного відхилення в кубі, як у теоремі Беррі-Ессена.
хлопець

Ідеально. Додано. Ткс.
Дзен

1
Дякую за швидку, наочну та ідеальну відповідь з кодом. Я був дуже здивований, як це швидко! Мені не було відомо про відповідну кількість вибірки. Я думав про випадок, коли кількість вибірок фіксується.
JimSD

@guy, дякую за це. Я не знав ідеї "відношення третього центрального моменту до стандартного відхилення, кубізованого в теоремі Беррі-Ессена" . Я просто хотів би вирішити той випадок, коли в розповсюдженні включена одна велика кількість, на кшталт того, що виходить. І такого типу розподілу можна вважати, як ви вже згадували. Якщо ви знаєте будь-яку попередню роботу, що стосується такого виду розповсюдження, дайте мені знати, дякую.
JimSD

2
ρ=Е[|Х-мк|3]мк3=Е[(Х-мк)3]

7

Я просто хотів би пояснити, використовуючи складні функції , що генерують накопичення , чому всі продовжують звинувачувати це у перекосі.

мк+σZмкσZ01Z-12т2-iγ16т3+о(т3)γ1Zκ3мк+σZγ1=σ-3κ3

нZн

н(-12(тн)2-iγ16(тн)3)+о(т3)=-12т2-iγ16нт3+о(т3).
тннγ12γ1


-1

Коротка відповідь: у вас немає достатньо великої вибірки, щоб застосувати центральну граничну теорему.


1
Те, що це не може бути вагомим поясненням, видно із зауваження, що CLT дає гарне наближення до першого набору даних у питанні, що однаково мало.
блукання

@whuber: Я думаю, ви говорите, що нормальний розподіл дає досить хороший наближення для вибірки п'яти з першого набору. Оскільки існує лише кінцева кількість значень для сум (13 можливих значень без заміни та 21 можливе значення із заміною), наближення не стає набагато кращим при великій кількості зразків з п'яти, а початкове наближення більше за рахунок початковий зразок ...
Генріх

@whuber Оскільки розподіл першого набору виглядає лівим перекосом, я би очікував, що сума п'яти також буде залишена косою, менш крайнім способом, ніж я б очікувала, що сума п'яти з другого набору буде перекошена правою частиною. Щоб скосистість ще більше зменшилася, я б подумав, що вам знадобиться більший розмір вибірки
Генріх

1
@Henry Дякую за коментарі Я не робив зауважень щодо цих конкретних обставин, а лише про логіку цієї відповіді, сподіваючись, що це можна буде пояснити далі.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.