Як ви передаєте красу теореми про центральну межу нестатисту?


33

Мій батько - ентузіаст математики, але статистикою не дуже цікавий. Було б акуратно спробувати проілюструвати деякі чудові фрагменти статистики, і CLT є головним кандидатом. Як би ви передали математичну красу та вплив центральної граничної теореми нестатисту?


Одна швидка думка - якось ввести в дискусію правило 68-95-99.7 ( en.wikipedia.org/wiki/68-95-99.7_rule ).
raegtin

Відповіді:


16

Що мені найбільше сподобалось у CLT - це випадки, коли це не застосовується - це дає мені надію, що життя трохи цікавіше, що пропонує крива Гаусса. Тож покажіть йому розподіл Коші.


яке відношення між розподілом Коші та CLT або відмовою CLT?
Робін Жирард


CLT вимагає, щоб MGF існував в районі 0. Розподіл Коші не має цього властивості. CLT Win. Коші навіть не задовольняє слабкіші вимоги сильнішої версії CLT, де потрібно лише те, що існують середнє значення та дисперсія. Розподіл Коші показує, що середнє значення потрібно для існування CLT. Це не робить CLT збоєм.
Балтимарк

@Baltimark Ви неправильно зрозуміли мій пост - очевидно, що Cachy не охоплюється CLT через припущення CLT, інакше було б неможливо довести CLT. Я наводив цей приклад, тому що люди вважають, що CLT працює для всіх дистрибутивів; ймовірно, "невдача" - це не досконале слово, але все ж я не думаю, що це є причиною протидії. Гаразд, я навіть змінив його на непридатне.

Я віддаю перевагу вашій редакції. Розподіл Коші, безумовно, дуже крутий.
Балтимарк

14

Щоб повністю оцінити CLT, це слід побачити.

Звідси поняття машини для бобів та безлічі відео YouTube для ілюстрації.


Я думав, що це показує біноміальне розподіл; Я не думаю, що його асимптотика має прямий зв’язок з CLT.

2
машина бобових від автора пакета анімації ... yihui.name/en/wp-content/uploads/2010/07/…
robin girard

1
@mbq подивіться на en.wikipedia.org/wiki/…
robin girard

@robin Я вже писав про це, в чому проблема?

1
@ShreevatsaR Справа в тому, що хороша ілюстрація повинна показувати «ядро» чогось, і (принаймні, IMO) «ядро» CLT полягає в тому, що воно обробляє багато змінних від різних дивних розподілів на гаусса, а не в тому, що це лише межа біноміального розподілу.

7

Часто, коли математики говорять про ймовірність, вони починають з відомого розподілу ймовірностей, тоді говорять про ймовірність подій. Справжнє значення центральної граничної теореми полягає в тому, що вона дозволяє використовувати звичайний розподіл як наближення у випадках, коли ми не знаємо справжнього розподілу. Ви можете задати батькові стандартне запитання зі статистикою (але висловлене як математика) про те, яка ймовірність того, що середнє значення вибірки буде більше заданого значення, якщо дані надходять із розподілу із середньою сигмою mu та sd, то подивіться, чи він бере на себе розподіл (який ви тоді кажете, що ми не знаємо) або каже, що йому потрібно знати розподіл. Тоді ви можете показати, що ми можемо наблизити відповідь за допомогою CLT у багатьох випадках.

Для порівняння математики зі статистикою я люблю використовувати середню величину теореми інтеграції (яка говорить про те, що для інтеграла від a до b існує прямокутник від a до b з однаковою площею, а висота прямокутника - це середнє значення крива). Математик дивиться на цю теорему і каже "круто, я можу використовувати інтеграцію для обчислення середнього", тоді як статистик дивиться на цю ж теорему і каже "круто, я можу використовувати середнє для обчислення інтеграла".

Насправді у мене в кабінеті є нашивки з наскрізними стінками середньої вартості теореми та CLT (разом із теоремою Байєса).


Хммм. Я думаю, що більшість математиків використовують MVT для наближення інтеграла до прямокутника.
кардинал

5

Мені подобається демонструвати варіативність вибірки і, по суті, теорему про центральну межу через вправу "в класі". Усі в класі говорять, що 100 учнів записують свій вік на аркуші паперу. Всі папірці однакового розміру і складені однаково, після того, як я обчислив середню. Це чисельність населення, і я обчислюю середній вік. Потім кожен учень випадковим чином вибирає 10 аркушів паперу, записує віки і повертає їх у сумку. (S) він обчислює середнє значення і передає сумку наступному учневі. Врешті-решт, у нас є 100 зразків по 10 учнів, що оцінюють середню сукупність, яку ми можемо описати за допомогою гістограми та деяких описових статистичних даних.

Потім ми повторюємо демонстрацію цього разу, використовуючи набір 100 "думок", які повторюють деякі питання "Так / Ні" з останніх опитувань, наприклад, якби вибори (британські Генеральні) були призначені завтра, ви б розглядали можливість голосування за Британську національну партію. Учні вибирають 10 цих думок.

Наприкінці ми продемонстрували варіацію вибірки, теорему про центральний ліміт тощо з неперервними та двійковими даними.


4

Гра в образі з наступним кодом, змінюючи значення Mта вибираючи дистрибутиви, окрім уніформи, може бути цікавою ілюстрацією.

N <- 10000
M <- 5
meanvals <- replicate(N, expr = {mean(runif(M,min=0, max=1))}) 
hist(meanvals, breaks=50, prob=TRUE) 

2

Якщо ви використовуєте Stata, ви можете використовувати команду -clt-, яка створює графіки розподілу вибірки, див

http://www.ats.ucla.edu/stat/stata/ado/teach/clt.htm


Схоже, це може бути дуже приємно, але я просто спробував встановити та запустити його в Stata 11.1 (тобто останню версію), і він продовжує створювати мені помилку r (3000) при натисканні на "Готово" у діалоговому вікні, навіть якщо я набираю - версія 6: clt-.
onestop

2

На мій досвід, CLT менш корисний, ніж здається. Ніколи не знаємо в середині проекту, чи n достатньо великий, щоб апроксимація була адекватною задачі. А для статистичного тестування CLT допомагає захистити помилку типу I, але робить мало, щоб уникнути помилки типу II. Наприклад, t-тест може мати довільно низьку потужність для великих n, коли розподіл даних надзвичайно перекошений.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.