Приклади реального життя із поширених розподілів


28

Я студентка, що розвиває інтерес до статистики. Мені подобається матеріал понад усе, але мені часом важко думати про додатки до реального життя. Зокрема, моє запитання стосується часто використовуваних статистичних розподілів (нормальних - бета-гамма тощо). Я думаю, що в деяких випадках я отримую особливі властивості, які роблять розподіл досить приємним - наприклад, властивість пам'яті експоненціальної. Але для багатьох інших випадків я не маю інтуїції як щодо важливості, так і щодо сфери застосування загальних дистрибутивів, які ми бачимо в підручниках.

Напевно, є багато хороших джерел, які стосуються моїх проблем, я би радий, якщо ви можете поділитися цим. Я був би набагато більше вмотивований у матеріалі, якби я міг пов'язувати його з прикладами з реального життя.


8
Чотирнадцять видів додатків, що охоплюють широкий спектр розповсюдження, описані у розділі "додатки" на сторінці довідки щодо функції Mathematica EstimatedDistribution .
whuber

Відповіді:


23

У Вікіпедії є сторінка, на якій перераховано багато розподілів ймовірностей із посиланнями на більш детальну інформацію про кожен розподіл. Ви можете переглянути список і перейти за посиланнями, щоб краще відчути типи програм, для яких зазвичай використовуються різні дистрибутиви.

Просто пам’ятайте, що ці дистрибуції використовуються для моделювання реальності, і як сказав Box: «всі моделі неправильні, деякі моделі корисні».

Ось деякі поширені дистрибуції та деякі причини їх корисності:

Нормально: Це корисно для перегляду засобів та інших лінійних комбінацій (наприклад, коефіцієнтів регресії) через CLT. Це пов'язано з тим, що якщо щось, як відомо, виникає через адитивні ефекти багатьох різних малих причин, то нормальне може бути розумним розподілом: наприклад, багато біологічні заходи є результатом безлічі генів і численних факторів навколишнього середовища, і тому вони часто є приблизно нормальними .

Гамма: Правильно перекошений і корисний для речей з природним мінімумом в 0. Зазвичай використовується для минулих часів та деяких фінансових змінних.

Експонента: особливий випадок Гамма. Це без запам'ятовування і легко масштабує.

Chi-квадрат ( ): особливий випадок Гамма. Виникає як сума квадратних нормальних змінних (так використовується для варіацій).χ2

Бета-версія: визначається між 0 і 1 (але може бути перетворена на інші значення), корисна для пропорцій або інших величин, яка повинна бути від 0 до 1.

Двомісні: Скільки «успіхів» із заданої кількості незалежних випробувань з однаковою ймовірністю «успіху».

Пуассон: загальний для підрахунків. Приємні властивості: якщо кількість подій за певний проміжок часу або області слідує за Пуассоном, то число в два рази за час або область все ще слідує за Пуассоном (удвічі більше середнього): це працює для додавання Пуассона або масштабування зі значеннями, відмінними від 2.

Зауважте, що якщо події відбуваються в часі, а час між подіями слідує за експоненцією, то число, яке відбувається в проміжок часу, слідує за Пуассоном.

Негативний двочлен: підраховує мінімум 0 (або інше значення залежно від версії) та без верхньої межі. Концептуально це кількість "невдач" до k "успіхів". Негативний двочлен - це також суміш змінних Пуассона, засоби яких походять від гамма-розподілу.

Геометричний: особливий випадок для негативного двочлена, де це кількість "відмов" до 1-го "успіху". Якщо обрізати (округлити вниз) експоненціальну змінну, щоб зробити її дискретною, результат буде геометричним.


3
Ну дякую за вашу відповідь. Однак, wikipedia надає більш загальний опис, який я хотів би. В основному, моє питання, чому деякі дистрибуції приємні? Щоб дати можливу відповідь у разі нормального розподілу, може бути пов'язано з центральною обмеженою теоремою - яка говорить, якщо вибирати нескінченну кількість спостережень, ви можете насправді за асимпотики побачити, що достатня статистика цих спостережень за даної незалежності має нормальний розподіл . Я шукаю більше таких прикладів ..
Roark

Не зовсім справжнє розповсюдження, але як бути бімодальний? Я не можу придумати жодних часто зустрічаються прикладів із реального життя після того, як я виявив, що багато гендерних відмінностей у людини не є бімодальними.
стельовий кіт

Додати багаточлен

3

Асимптотична теорія призводить до нормального розподілу, екстремальних значущих типів, стійких законів і Пуассона. Експоненція і Вейбулла, як правило, параметрично розподіляють події. У випадку з Вейбуллом це надзвичайний тип значення для мінімуму вибірки. Пов'язані з параметричними моделями для звичайно розподілених спостережень, розподіли квадрата, t і F виникають при тестуванні гіпотез та оцінці інтервалу довіри. Квадрат чі також підходить для аналізу таблиць на випадок обставин та корисності тестів на придатність. Для вивчення сили тестів ми маємо нецентральні розподіли t і F. Гіпергеометричний розподіл виникає в точному тесті Фішера для таблиць на випадок надзвичайних ситуацій. Біноміальний розподіл важливий при проведенні експериментів для оцінки пропорцій. Негативний двочлен є важливим розподілом для моделювання наддисперсії в точковому процесі. Це має добре почати практичні параметричні дистрибуції. Для негативних випадкових величин на (0, ∞) розподіл Gamma є гнучким для надання різноманітних форм, а також звичайний журнал також використовується. На [0,1] бета-сімейство забезпечує симетричні дистирбуції, включаючи рівномірні, а також розподіли, перекошені ліворуч або косою правою.

Я також хочу зазначити, що якщо ви хочете дізнатися про всі деталі з грізною крупою щодо розподілів у статистиці, є класичні серії книг Джонсона та Коца, які включають дискретні розподіли, безперервні одноманітні розподіли та безперервні багатоваріантні розподіли, а також том 1 розширеної теорії статистики Кендалл та Стюарт.


Дякую вам дуже за відповідь, це надзвичайно корисно. Дякую ще раз, це мені дуже допомогло.
Roark

2

Придбайте та прочитайте принаймні перші 6 глав (перші 218 сторінок) Вільяма Дж. Феллера "Вступ до теорії ймовірностей та її застосувань, т. 2" http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb . Принаймні прочитайте всі проблеми для вирішення та бажано спробувати вирішити стільки, скільки зможете. Вам не потрібно читати т. 1, який, на мою думку, не особливо заслуговує.

Незважаючи на те, що автор помер 45 років тому, до того, як книга ще була закінчена, це просто найкраща книга, яка існує, без жодної смуги, для розвитку інтуїції у ймовірності та стохастичних процесах, розуміння та розвитку почуття до різних розповсюджень , як вони пов'язані з явищами реального світу та різними стохастичними явищами, які можуть і трапляються. І з міцним фундаментом, який ви будете будувати з цього, ви будете добре послуговуватися статистикою.

Якщо ви зможете зробити це через наступні глави, що стає дещо складніше, вам будуть світлі роки попереду майже всіх. Простіше кажучи, якщо ви знаєте Feller Vol 2, ви знаєте ймовірність (і стохастичні процеси); Це означає, що все, що ви не знаєте, як-от нові розробки, ви зможете швидко підібрати та освоїти, будуючи на цій міцній основі.

Майже все, що раніше згадувалося в цій темі, є у Feller Vol 2 (не весь матеріал в Kendall Advanced Theory Statistics, але читання цієї книги буде шматочком пирога після Feller Vol 2), і багато іншого, і багато іншого, все це таким чином, який повинен розвивати ваше стохастичне мислення та інтуїцію. Джонсон і Коц хороші для детальних описів різного розподілу ймовірностей, Feller Vol 2 корисний для того, щоб навчитися мислити ймовірнісно, ​​і знаючи, що витягти з Джонсона та Коца і як ним користуватися.


2

Просто додати до інших відмінних відповідей.

Розподіл Пуассона корисний, коли ми маємо підрахунок змінних, як уже згадували інші. Але слід сказати набагато більше! Пуассон виникає асимптотично з біноміально розподіленої змінної, коли (кількість експериментів Бернуллі) збільшується без меж, а (ймовірність успіху кожного окремого експерименту () переходить до нуля таким чином, щоp λ = n pnpλ=npзалишається постійним, обмеженим подалі від нуля і нескінченності. Це говорить нам про те, що це корисно, коли ми маємо велику кількість індивідуально дуже неймовірних подій. Деякі хороші приклади: нещасні випадки, наприклад, кількість автомобільних аварій у Нью-Йорку за день, оскільки кожен раз, коли проїжджає / зустрічається дві машини, є дуже низька ймовірність аварії, і кількість таких можливостей справді астрономічна! Тепер ви самі можете подумати про інші приклади, такі як загальна кількість авіакатастроф у світі за рік. Класичний приклад, де кількість загиблих кішків у пресійській кінноті!

Коли Пуассон використовується в епідеміології, для моделювання кількості випадків якоїсь хвороби, часто виявляється, що він не підходить: дисперсія занадто велика! У Пуассона є дисперсія = середня величина, яку легко видно з межі двочлену: У двочленній дисперсії дорівнює , а коли іде до нуля, обов'язково переходить до одиниці, тому дисперсія переходить до , що очікує, і обидва переходять до . Один із способів - це пошук альтернативи Пуассону з більшою дисперсією, не обумовленою рівним середнім значенням, таким як від'ємний двочлен. ¿Але чому виникає це явище більшої дисперсії? Одна з можливостей полягає в тому, що індивідуальні ймовірності хворобиp 1 - p n p λ p pnp(1p)p1pnpλpДля однієї людини вони не є постійними, і не залежать від деякого спостережуваного коваріату (скажімо, віку, професії, статусу куріння, ...), що називається непоміченою неоднорідністю, а іноді моделі, які використовуються, називають крихкими моделями або змішаними моделями. Одним із способів цього є припущення, що в популяції походить від деякого розподілу, і якщо припустити, що це, наприклад, гамма-розподіл (який спрощує математику ...), ми отримуємо розподіл гамма-пуассона --- який відновлює негативний двочлен!p


0

Нещодавно опубліковані дослідженняговорить про те, що продуктивність людини НЕ нормально розподіляється, що суперечить загальній думці. Дані з чотирьох галузей були проаналізовані: (1) Вчені з 50 дисциплін, засновані на частоті публікацій у найбільш відомих журналах, що стосуються дисципліни. (2) Розважальники, такі як актори, музиканти та письменники, та кількість отриманих престижних нагород, номінацій чи відзнак. (3) Політики у 10 країнах та результати виборів / перевиборів. (4) Колегіальні та професійні спортсмени розглядають найбільш індивідуалізовані заходи, такі як кількість домашніх пробіжок, прийоми в командних видах спорту та загальні виграші в окремих видах спорту. Автор пише: "Ми бачили чіткий і послідовний розподіл владних норм у кожному дослідженні, незалежно від того, наскільки вузько чи широко ми аналізували дані ..."


4
Хто припустив, що продуктивність людини зазвичай розподіляється ?! Принцип 80-20 запропонував Парето (1906!).
абауман
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.