Причини нормального поширення даних


19

Які деякі теореми можуть пояснити (тобто генеративно) чому можна очікувати нормального поширення реальних даних?

Я знаю два:

  1. Центральна гранична теорема (звичайно), яка говорить нам, що сума декількох незалежних випадкових величин із середнім значенням та дисперсією (навіть коли вони не однаково розподілені) має тенденцію до нормального розподілу

  2. Нехай X і Y - незалежні безперервні RV з диференційованою щільністю, такі, що їх щільність суглоба залежить лише від + . Тоді X і Y є нормальними.х2у2

(перехресне повідомлення від mathexchange )

Редагувати: Для уточнення я не пред'являю жодних претензій щодо того, скільки даних у реальному світі зазвичай розповсюджується. Я просто запитую про теореми, які можуть дати зрозуміти, які саме процеси можуть призвести до нормально розподілених даних.


7
Ви можете знайти цікавий пов'язаний матеріал у нашій темі на сайті stats.stackexchange.com/questions/4364 . Щоб уникнути потенційної плутанини серед деяких читачів, я хотів би додати (і я сподіваюся, що це був ваш намір), що ваше запитання не слід читати як таке, що передбачає, що всі або навіть більшість реальних наборів даних можуть бути адекватно апробовані нормальним розподілом. Скоріше, у певних випадках, коли існують певні умови, може бути корисним використовувати нормальний розподіл як орієнтир для розуміння або інтерпретації даних: то якими можуть бути ці умови?
whuber

Дякую за посилання! І це саме правильно, дякую за роз’яснення. Я відредагую його до оригінальної публікації.
анонім

@ user43228, " Звичайно, є багато інших розподілів, які виникають у реальних проблемах, які взагалі не виглядають нормально ". askamathematician.com/2010/02/…
Pacerier

Відповіді:


17

Багато обмежуючих розподілів дискретних РВ (пуассон, двочлен тощо) є приблизно нормальними. Подумайте про плінко. Майже у всіх випадках, коли дотримується приблизна нормальність, нормальність відповідає лише великим зразкам.

Більшість реальних даних НЕ нормально поширюються. Доповідь Мікчері (1989) під назвою " Єдиноріг, нормальна крива та інші неймовірні істоти " вивчила 440 масштабних досягнень та психометричні заходи. Він виявив велику варіативність у розподілах, що підтверджує їх моменти, і не так багато доказів (навіть приблизної) нормальності.

У статті 1977 року Стівена Стіглера під назвою " Чи надійні оцінювачі працюють з реальними даними " він використав 24 набори даних, зібрані з відомих спроб 18 століття, щоб виміряти відстань від Землі до Сонця та спроби 19 століття виміряти швидкість світла. Він повідомив про укороченість та куртоз у зразках у таблиці 3. Дані мають велику хворобу.

У статистиці ми припускаємо нормальність часто, оскільки це робить максимальну ймовірність (або якийсь інший метод) зручним. Однак два цитовані вище документи свідчать про те, що припущення найчастіше мало. Тому корисні дослідження корисності.


2
Більшість цієї публікації чудова, але вступний параграф турбує мене, оскільки її можна так легко витлумачити. Це , здається , сказати - досить явно - що в загальному -то , «велика вибірка» буде виглядати нормально розподілені. У світлі ваших наступних зауважень я не вірю, що ви насправді мали намір це сказати.
whuber

Я мав би бути більш зрозумілим - я не припускаю, що більшість реальних даних зазвичай розподіляються. Але це чудовий момент. І я припускаю, що ви маєте на увазі, що розподіл біномів з великим n є нормальним, а розподіл пуассона з великим середнім є нормальним. Які ще розподіли мають тенденцію до нормальності?
анонім

Дякую, я відредагував перший абзац. Наприклад, див. Уолд і Вулфовіц (1944) теорему про лінійні форми під перестановкою. Тобто, вони показали, що дві статистичні дані вибірки при перестановці є асимптотично нормальними.
bsbk

Розподіл вибірки - це не "реальний набір даних"! Можливо, труднощі, які виникають у мене з явними невідповідностями у вашій публікації, випливають із цього плутанини між розповсюдженням та даними. Можливо, це випливає з недостатньої ясності щодо того, який «обмежуючий» процес ви насправді маєте на увазі.
whuber

3
Первісне запитання стосувалося пояснення "генеративно", як можуть виникати нормальні дані в реальному світі. Можливо, що реальні дані можуть бути отримані в процесі двочлену або пуассона, і те і інше можна наблизити звичайним розподілом. Оп попросив інших прикладів, і той, який прийшов до тями, був розподілом перестановки, який є асимптотично нормальним (за відсутності зв'язків). Я не можу подумати, що з цього розповсюдження будуть генеруватися реальні дані, тому, можливо, це розтягнення.
bsbk

10

Існує також інформаційно-теоретичне обгрунтування використання нормального розподілу. Враховуючи середнє значення та дисперсію, нормальний розподіл має максимальну ентропію серед усіх реально оцінених імовірнісних розподілів. Є багато джерел, які обговорюють цю властивість. Короткий ви знайдете тут . Більш загальне обговорення мотивації використання розподілу Гаусса, що включає більшість аргументів, згаданих до цих пір, можна знайти в цій статті журналу Signal Processing.


6
Це назад, наскільки я це розумію. Йдеться про те, як зробити припущення про нормальність у чітко визначеному сенсі слабким припущенням. Я не бачу, що це означає про дані в реальному світі. Ви можете також стверджувати, що криві, як правило, прямі, тому що це найпростіше припущення, яке ви можете зробити щодо кривизни. Гносеологія не обмежує онтологію! Якщо посилання, яке ви цитуєте, виходить за рамки цього, будь ласка, викладіть аргументи.
Нік Кокс

3

У фізиці зазвичай CLT називається причиною звичайно розподілених помилок у багатьох вимірах.

Дві найпоширеніші розподіли помилок в експериментальній фізиці - це нормальне та Пуассон. Останнє зазвичай зустрічається при вимірюваннях кількості, таких як радіоактивний розпад.

Ще одна цікава особливість цих двох розподілів полягає в тому, що сума випадкових змінних Гаусса та Пуассона належить Гауссу та Пуассону.

Існує кілька книг зі статистики в експериментальних науках, таких як ця : Герхард Бом, Гюнтер Зех, Вступ до статистики та аналізу даних для фізиків, ISBN 978-3-935702-41-6


0

CLT є надзвичайно корисним для того, щоб робити висновки про такі речі, як популяція, тому що ми дістаємось там, обчисливши якусь лінійну комбінацію, купу окремих вимірювань. Однак, коли ми намагаємось робити висновки щодо окремих спостережень, особливо майбутніх ( наприклад , інтервалі прогнозування), відхилення від нормальності набагато важливіші, якщо нас цікавлять хвости розподілу. Наприклад, якщо у нас є 50 спостережень, ми робимо дуже велику екстраполяцію (і стрибок віри), коли говоримо про те, що ймовірність майбутнього спостереження складе як мінімум 3 стандартних відхилення від середнього.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.