Наскільки дивним є скупчення літальних аварій?


15

Оригінальне запитання (25.07.14): Чи має сенс ця цитата ЗМІ, чи існує кращий статистичний спосіб перегляду пластика останніх авіакатастроф?

Однак Барнетт також звертає увагу на теорію розподілу Пуассона, з якої випливає, що короткі проміжки між аваріями насправді є більш вірогідними, ніж довгі.

"Припустимо, що в середньому трапляється одна смертельна аварія на рік. Це означає, що шанс аварії в будь-який день є один з 365", - каже Барнетт. "Якщо аварія відбудеться 1 серпня, ймовірність, що наступна аварія відбудеться через день 2 серпня, становить 1/365. Але ймовірність наступної аварії 3 серпня становить (364/365) x (1/365) , оскільки наступна аварія відбувається 3 серпня, лише якщо 2 серпня не буде аварії ".

"Це здається протизаконним, але висновок невпинно випливає із законів вірогідності", - говорить Барнетт.

Джерело: http://www.bbc.com/news/magazine-28481060

Пояснення (27.07.14): Що протилежне інтуїтивному (на мене), говорить про те, що рідкісні події, як правило, відбуваються близько в часі. Інтуїтивно я думаю, що рідкісні події не відбудуться близько в часі. Чи може хтось вказати мені на теоретичний чи емпіричний очікуваний розподіл часу між подіями при припущеннях розподілу Пуассона? (Тобто гістограма, де вісь y є частотою або ймовірністю, а вісь x - час між двома послідовними подіями, згрупованими у дні, тижні, місяці чи роки тощо). Дякую

Пояснення (7/28/14): Заголовок означає, що швидше за все виникають скупчення аварій, ніж аварії з широким розміщенням. Нехай це операціоналізує. Скажімо, кластер - це 3 авіакатастрофи, а короткий проміжок часу - 3 місяці, а тривалий - 3 роки. Думається, нелогічно вважати, що існує більша ймовірність того, що 3 аварії трапляться протягом 3 місяців, ніж протягом 3 років. Навіть якщо ми сприймемо першу ДТП як дану, нелогічно думати, що протягом наступних 3 місяців відбудеться ще 2 аварії порівняно з наступними 3 роками. Якщо це правда, то заголовок ЗМІ вводить в оману та неправильно. Я щось пропускаю?


1
Повторне уточнення: Вам може бути корисним розрізняти ймовірність , ймовірність за одиницю часу та очікування . Хоча процеси, що описують рідкісні події, - практично за самим значенням "рідкісні", очікують тривалий час між подіями, що не суперечить імовірності, що одиниця часу буде найбільшою на початку. Тим не менш, ймовірність наступної події, яка відбудеться протягом короткого часу, буде дуже мала.
whuber

2
Також я щойно помітив цю статтю у Вікіпедії - вам це може сподобатися. О, і я щойно натрапив на цей pdf - він конкретно згадує про "кластеризацію" авіакатастроф (і описує проблему набагато краще, ніж я досі ...).
Steve S

1
@Glen_b: Недоліком статті в газеті (випливає з назви статті, яка є назвою моєї публікації) є те, що стаття передбачає, що існує більша ймовірність заданої кількості (тобто кластеру) нещасних випадків у короткий проміжок часу, ніж протягом більш тривалого періоду часу. Це просто неправильно.
Джоель В.

1
@JoelW: Якщо що-небудь, то журналіст зітхнув би ... Як би там не було, все очищено чи все ще залишаються застереження?
Steve S

1
Я здогадуюсь, що саме статистик ввів в оману журналіста. Я сумніваюся, що журналіст зрозумів це неправильно самостійно (адже це настільки контр-інтуїтивно).
Joel W.

Відповіді:


3

Короткий зміст: Перше речення у цитованому абзаці BBC є неохайним та оманливим.

Незважаючи на те, що попередні відповіді та зауваження вже давали чудову дискусію, я вважаю, що на головне питання відповіли не задовільно.

Отже , давайте припустимо , що ймовірність авіакатастрофи в будь-який день є і що аварії не залежать один від одного. Давайте припустимо, що один літак розбився 1 січня. Коли наступний літак зазнав аварії?p=1/365

Що ж, давайте зробимо просте моделювання: щодня протягом наступних трьох років я випадковим чином вирішуватиму, чи розбився інший літак із ймовірністю та відзначу день наступної аварії; Я повторю цю процедуру 100p разів. Ось отримана гістограма:100000

Розподіл площинних дроблень, модель

Насправді розподіл ймовірностей просто задається , де t - кількість днів. Я побудував цей теоретичний розподіл як червону лінію, і ви можете бачити, що він добре підходить до гістограми Монте-Карло. Зауваження: якби час був дискретизований у менших і менших бункерах, цей розподіл переходив би до експоненціального; але це не дуже важливо для цієї дискусії.Пr(т)=(1-p)тpт

Як вже багато хто зауважив тут, це крива, що спадає . Це означає, що ймовірність того, що наступний літак зазнає аварії наступного дня, 2 січня, перевищує ймовірність того, що наступний літак зазнає аварії в будь-який інший день, наприклад, 2 січня наступного року (різниця майже втричі: і 0,10 % ).0,27%0.10%

0,8%94% Ось чому навіть при монотонному зменшенні розподілу ймовірностей напевно можливо, що "скупчення" (наприклад, дві аварії літака за три дні) є дуже малоймовірними.

Ось ще одна гістограма, щоб реально зрозуміти цю точку. Це просто сума попередньої гістограми за кілька непересічних часових періодів:

Гістограма частоти дроблення площини


Ви кажете, що професор MIT помиляється?
Steve S

1
Ні, цитата Барнетта в статті BBC повністю правильна. Але його тлумачення репортером BBC в кращому випадку неохайне: "Барнетт також звертає увагу на теорію розподілу Пуассона, з якої випливає, що короткі проміжки між аваріями насправді є більш імовірними, ніж довгі" . Найбільш природне трактування цього речення є мертвим неправильним (і я вважаю, що Барнетт цього не мав на увазі). Можливо, я повинен бути більш чітким щодо цього у своїй відповіді. Чи є якась істотна частина моєї відповіді, з якою ви не згодні? Сподіваюсь, що ні, як я повністю згоден з вашими.
Амеба каже: Відновити Моніку

13

Що говорить репортер, це те, що випадкове виникнення авіакатастрофи можна моделювати як процес Пуассона - ситуацію, коли ймовірність події, яка відбудеться через деякий (малий) інтервал, пропорційна довжині зазначеного інтервалу і де кожна подія в незалежному від усіх інших.

Це розумна модель для описаного сценарію?

Ймовірно.

Звичайно, ці події можуть бути не на 100% незалежними, оскільки інші пілоти, можливо, змінюють свою поведінку (хоч і дуже незначно) після краху. [Я не знаю - можливо, декілька пілотів роблять додатковий тренувальний тренажер чи щось подібне]. Тим не менш, припущення про незалежність все ще цілком обґрунтоване.

Що з скупченнями авіакатастроф?

Так. З огляду на пуассоновский процес (або навіть деякий інший випадковий процес), ви б очікувати , щоб побачити деякі кластери входжень.

Насправді, як описано Оксфордським словником статистики у його записі про процес Пуассона (що є "математичним описом випадковості"):

[R]andomness usually gives rise to apparent clustering, despite the natural
expectation that randomness would lead to regularity.

Наприклад, ознайомтеся з цим простим бітом коду R :

set.seed(123)
x <- runif(500)
y <- runif(500)

plot(x, y, pch=20, col='blue', main="A Random Distribution of Points")

яка виробляє:
Помічаєте скупчення?

Незважаючи на те, що ми знаємо, що це графік випадкових точок, він виглядає так, що до нього є деякі не випадкові біти - конкретно, в деяких частинах графіка є згустки точок, а інші частини широко відкриті. Стаття намагається описати саме таку поведінку (лише з даними часових рядів, а не просторовими даними).


ОНОВЛЕННЯ:

@JoelW. Так, скажімо, наприклад, ймовірність того, що завтрашній день падіння літака (або будь-якого дня з цього питання) є " p " (і, скажімо, " p " - це щось на зразок 1 на сотню).

Причина, через яку наступна авіакатастрофа швидше відбудеться завтра, ніж це швидше відбудеться рівно через рік (тобто 26 липня 2015 року ), тому що ймовірність того, що наступна катастрофа відбудеться рівно за рік, дорівнює:

= Prob(crash tomorrow) * Prob(365 days with *no* crashes)

Мати сенс?

В кінці кінців, я думаю , що причина , ці речі нелогічні, бо зазвичай , коли ми думаємо , що фрази , як: "The odds of a plane crash in one month compared with the odds of one happening tomorrow". Ми, природно, не відразу враховуємо 24-годинний період, який починається рівно через місяць. Натомість ми (або принаймні це роблю) схильні думати про це більш, добре, гнучко . Так більше як: a month ± a week. Це і той факт, що ми забуваємо про врахування шансів аварії, що не відбувається тимчасово ... (Але знову ж таки, можливо, це тільки я ...).

Фу!


Додаткові ресурси:

  • Стаття Вікіпедії про ілюзію кластера
  • PDF , який специфічно згадує «кластеризація» плоских аварій (на сторінці 8) і коротко описує математику в процесі Пуассона .

1
@Joel W .: Насправді, я маю додати більше до цієї відповіді - дайте мені пару хвилин для редагування ...
Стів S

7
Аргумент про затримку подорожі той самий, що з’являється в старому анекдоті про те, як TSA знайшов статистику з бомбою на борту літака. На запитання пояснити себе, статистик відповів: "Ну, шанси однієї людини, яка має бомбу, невеликі, але недостатньо малі для комфорту, але шанси двох людей, які мають бомбу, є нескінченними. Тому, коли я приношу бомбу, майже немає шансів, що буде дві бомби, і ми будемо абсолютно безпечними ".
whuber

1
Ваш жарт суть, @whuber, але, мабуть, існує якийсь логічний розрив між тим, що "короткі проміжки між аваріями насправді є більш імовірними, ніж довгі", і кажучи, що ймовірність аварії завтра не залежить від того, чи буде аварія. сталися сьогодні. Я думаю, ймовірність може бути контр-інтуїтивно зрозумілою.
Joel W.

1
Що протилежне інтуїтивному (на мене), говорить про те, що рідкісні події, як правило, відбуваються близько часу. Інтуїтивно я думаю, що рідкісні події не відбудуться близько в часі. Я єдиний, хто має інтуїтивний погляд?
Joel W.

1
@Steve S: Дякую за посилання. Як виглядатиме експоненціальний розподіл для передбачуваного значення у статті новин (1/365)? У будь-якому випадку, можливо, експоненціальний розподіл не стосується заголовка статті, що передбачає порівняння ймовірності того, що дана кількість подій відбудеться за короткий проміжок часу, з ймовірністю того, що кількість подій відбудеться протягом тривалого періоду часу .
Джоель В.

4

Якщо кількість авіакатастроф розподіляється Пуассоном (як він, здається, заявляє), час між аваріями має експоненціальний розподіл. Pdf експоненціального розподілу є монотонною функцією зменшення часу. Отже, попередні збої є більш імовірними, ніж пізніші збої.


"короткі проміжки між аваріями насправді є більш імовірними, ніж довгі". Чим це відрізняється від того, щоб сказати, що якщо щойно трапилася авіакатастрофа, ми всі повинні затягувати нашу подорож (з статистичних причин)?
Joel W.

2
Джоель, Ця цитата є безглуздою, поки її автор не визначить, що означає "короткий" і "довгий". У його прикладі події з очікуваною швидкістю один на рік, шанс повторення протягом наступного місяця все ще буде набагато меншим, ніж шанс, що наступна аварія відбудеться через рік. Що він міг би означати, це те, що ймовірність за одиницю часу більша найближчим часом, ніж у довгостроковій перспективі. Щоб порівняти фактичні ймовірності, ви повинні помножити ймовірність на одиницю часу на тривалість (технічно ви повинні інтегрувати її протягом тривалості).
whuber

@whuber: Заголовок говорить про ймовірність скупчення авіакатастроф. Поки що нічого не сказано на зміні stackexchange мене не переконало, що скупчення аварій на літаках є більш звичним або ймовірним, ніж широкомасштабні аварії на літаку. Отже, мені здається, що цитата із ЗМІ прямо вводить в оману (можливо, тому, що часові інтервали не визначені, як ви писали). Що ти думаєш?
Joel W.

Я не знаю, що ви маєте на увазі під «аварійними літаковими аваріями», і я не впевнений, що ви розумієте під «кластером». Припустимо, щоб зробити ситуацію конкретною, ряд рідкісних подій трапляється в роки 0, 10, 11, 12 та 22 (відраховуючи деяку початкову дату). Точно скільки "широко розставлених" подій відбулося? Скільки "кластерів" сталося? Я можу знайти відповідальні відповіді на перше запитання від нуля до десяти, а відповіді на друге питання можуть бути нульовими чи одиничними.
whuber

1
@whuber: Заголовок передбачає, що швидше за все виникають скупчення аварій, ніж аварії з широким розміщенням. Нехай це операціоналізує. Скажімо, кластер - це 3 авіакатастрофи, а короткий проміжок часу - 3 місяці, а тривалий - 3 роки. Думається, нелогічно вважати, що існує більша ймовірність того, що 3 аварії трапляться протягом 3 місяців, ніж протягом 3 років. Навіть якщо ми сприймемо першу ДТП як дану, нелогічно думати, що протягом наступних 3 місяців відбудеться ще 2 аварії порівняно з наступними 3 роками.
Joel W.

0

Інші відповіді вже стосувалися того, як кластеризують незалежні події. (Читання Хаока Гліка, всі ті роки тому, відкрило мені очі на цю ідею.)

Але насправді є вагомі докази того, що авіакатастрофи не є незалежними подіями. Вплив Чіалдіні має дуже хороший розділ про це ( тут також згадувалося, що має кілька посилань на дані; і я знайшов уривок цієї частини книги ). Очевидно, що це дуже суперечливо: в основному йдеться про те, що чим більше оприлюднена авіакатастрофа, тим більше шансів вплинути на пілота (свідомо чи несвідомо), щоб розбити його літак. Але психологічні пояснення, що лежать в основі гіпотези, здаються правдоподібними, і дані, здається, теж підтримують це.

(Посилання на дослідження, розроблені на основі статистики, будуть вітатися в коментарях.)


Не говорить про це: говорить: "одразу після деяких видів широко розрекламованих історій самогубств збільшується кількість людей, які загинули в результаті аварій комерційних авіаліній".
Scortchi

Посиланням на претензію є, я думаю, Філіпс, (1978 р.) "Смерльність аварій літака зростає одразу після газетних історій про вбивства та самогубства", Science , 201 , pp. 748-750. Анотація стосується "приватних, ділових та корпоративно-виконавчих літаків".
Scortchi

Або, можливо, це: Філліпс (1980), "Аварії на літаках, вбивства та засоби масової інформації: до теорії наслідування та навіювання", Соціальні сили , 58 , 4, де в рефераті згадуються "авіакомпанії".
Scortchi

2
Altheide (1981), Social Force , 60 , 2 припускає, що "певний вид широко розкритої історії самогубств", можливо, не був визначений повністю незалежно від наступних "авіакатастроф - звучить скоріше як визначення " знаменитого рабина " .
Scortchi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.