Більш важлива статистика: "90 відсотків усіх жінок вижили" або "90 відсотків усіх тих, хто вижив, були жінки"?


14

Розглянемо наступні твердження про Титанік:

Припущення 1: На кораблі були лише чоловіки та жінки

Припущення 2: Була велика кількість чоловіків, а також жінок

Заява 1: 90 відсотків усіх жінок вижили

Заява 2: 90 відсотків усіх, хто вижив, були жінками

Перший вказує на те, що врятування жінок, ймовірно, було пріоритетним (незалежно від того, чи економили чоловіки)

Коли корисна друга статистика?

Чи можна сказати, що одна з них майже завжди корисніша за іншу?


40
корисніше з якою метою?
Аксакал

12
Здивований, що жодна з цих відповідей не згадала Парадокс Сімпсона
Немо

3
Я б сказав, що це залежить від того, ви жінка чи ні!
meh

6
Перше твердження не має сенсу без порівняльної статистики для чоловіків.
Бармар

1
@RahulSaha Але якщо б 95% чоловіків вижили, то наслідком може бути те, що вони надавали ще більший пріоритет чоловікам. Тому потрібне порівняння.
Бармар

Відповіді:


54

Як вони стоять, жодна із заяв 1 або 2 не є дуже корисною. Якби 90% пасажирів були жінками, а 90% людей вижили навмання, то обидва твердження були б правдивими. Заяви потрібно розглядати в контексті загального складу пасажирів. І загальний шанс вижити.


Припустимо, у нас було стільки чоловіків, скільки жінок, по 100 кожен. Ось кілька можливих матриць чоловіків (M) проти жінок (W) та виживаючих (S) проти мертвих (D):

  |  M |  W
------------
S | 90 | 90
------------
D | 10 | 10

90% жінок вижили. Як і 90% чоловіків. Заява 1 відповідає дійсності, заява 2 - хибною, оскільки половина тих, хто вижив, - жінки. Це узгоджується з багатьма вцілілими людьми, але різниці між статями немає .

  |  M |  W
------------
S | 10 | 90
------------
D | 90 | 10

90% жінок вижили, але лише 10% чоловіків. 90% тих, хто вижив, - жінки. Обидва твердження вірні. Це узгоджується з різницею між статями : жінки швидше виживали, ніж чоловіки.

  |  M |  W
------------
S |  1 |  9
------------
D | 99 | 91

Вижили 9% жінок, але лише 1% чоловіків. 90% тих, хто вижив, - жінки. Заява 1 є хибною, заява 2 - істинною. Це знову ж таки узгоджується з різницею між статями : жінки швидше виживали, ніж чоловіки.


3
(or indeed, if *everyone* survived)... Якщо всі виживали, то виживали 100% всіх жінок, незалежно від пропорцій.
Bridgeburners

1
@Bridgeburners: ти абсолютно правий, і мене це вдарило, коли я був далеко від комп'ютера. Дякую, я відредагував свою відповідь.
Стефан Коласа

18

З його боку, умовна ймовірність вижити умовно статтю корисніше, просто через напрямок потоку інформації. Стать людини відома ще до її статусу виживання, і ця ймовірність може бути використана в прогнозованому сенсі, перспективно. Також на це не впливає поширеність самок. Коли ви сумніваєтесь, подумайте про передбачення.


Так, у її обличчі. Тож, щоб переконатися, що я розумію, як це стосується фактичної статистики, про яку йдеться ... Ви говорите, що заява №1 є корисною, оскільки вона говорить мені, що якщо я стану жінкою, на борту великого пасажирського лайнера 1912 року буває, що тоне у водах, обляжених айсбергом, тоді шанс мене вижити - 90%? І, додаючи обґрунтоване припущення, що з тих пір покращились технологія та методи збереження життя, це означало б, що шанс пережити таку ситуацію сьогодні, ймовірно, навіть краще, ніж 90%? Класно! ;-)
Дон Хатч

Ці коментарі продавати за межі початкової описової мети.
Френк Харрелл

Ви впевнені, що правильно поставили мету? Питання полягає, мабуть, у корисності цих тверджень щодо справжнього "Титаніка", який насправді не є таким корисним для прогнозування, оскільки з того часу змінилося багато. Тож здається, що ваш евристичний не вдався на першому реальному прикладі, кинутому на нього, чи не так? Це не здається вдалим початком. З іншого боку, можливо, ОП призначило питання "Титаніка" проксі для загального питання тієї самої форми, що застосовується до поточних сценаріїв, які мають передбачувальну актуальність; Не знаю.
Дон Хетч

1
Так само, як я маю докладне тематичне дослідження щодо ймовірності виживання пасажирів TItanic у своїй книзі " Стратегії моделювання регресії" , для виявлення того, що сталося, є велика цінність. Я не використовую передбачувані ймовірності з цієї логістичної моделі для прогнозування майбутніх "Титаніків", а для виявлення закономірностей у процесі вибору рятувального човна.
Френк Харрелл

6

Перший вказує на те, що врятування жінок, ймовірно, було пріоритетним (незалежно від того, чи економили чоловіки)

Слово "пріоритет" походить від латинського "перед". Пріоритетним є те, що потрібно постати перед чимось іншим (де "раніше" використовується у значенні "важливіше"). Якщо ви говорите, що рятування жінок було пріоритетним завданням, тоді врятування жінок повинно бути перед чимось іншим. І природне припущення полягає в тому, що те, про що йдеться, - це врятувати чоловіків. Якщо ви скажете "незалежно від того, чи рятували чоловіки", тоді нам залишається цікаво, що це було раніше.

Про те, що у жінок високий рівень виживання, не дуже багато, якщо ми не знаємо, який був загальний рівень виживання. На останньому кораблі, на якому я був, понад 90% жінок вижили, але я б не охарактеризував це як показ, що рятування жінок є головним пріоритетом.

І не знаючи, який відсоток тих, хто вижив серед жінок, мало що говорить, не знаючи, який відсоток людей складають жінки.

Яка статистика корисніша насправді залежить від ситуації. Якщо ви хочете знати, наскільки щось небезпечне, рівень смертності важливіший. Якщо ви хочете знати, що впливає на те, наскільки небезпечне щось, то важливим є відсоткове розбиття жертв.


2
Приємна критика :-) "На останньому кораблі, на якому я був, вижили понад 90% жінок, але я б не охарактеризував це як показ, що рятування жінок є головним пріоритетом". Звичайно, це має високий пріоритет у порівнянні із скиданням їх за борт! Звичайно, це абсурдне тлумачення "високого пріоритету", але оскільки ОП виключило тлумачення "вищий пріоритет, ніж рятування чоловіків", все, що нам залишається, - це абсурдні тлумачення.
Дон Хетч

3

Нам може бути корисно вивчити, як пов'язані ці ймовірності.

WS

P(S|W)=0.9

P(W|S)=0.9

Теорема Байєса ілюструє, як пов'язані ці твердження про ймовірність.

P(S|W)=P(W|S)P(S)P(W)

P(S)P(W)

P(S)P(W)


3
Я б також сказав, навпаки, до вашого висновку, що якщо ні P (S), ні P (W) невідомі, то і P (S | W), і P (W | S) страждають від тієї ж розчарувальної недостатньої корисності. У мене ще немає чіткого уявлення про те, що можна сказати, якщо точно відомий один з P (S) і P (W).
Дон Хетч

P(W)=0.5

1
Так, це виглядає правильно, і вирок здається таким, що інформація є надзвичайно неадекватною навіть з огляду на це. Треба сказати, щоразу, коли я починаю замислюватися над тим, яку інформацію я можу отримати з просто P (W | S) або просто P (S | W), навіть додаючи P (W) або що завгодно, я в кінцевому підсумку замислююсь "чому на землі я Я думав про це? Чому вони дали мені лише ті відсотки? Просто покажіть мені всю таблицю ".
Дон Хетч

3

Це залежить від того, що вважати корисним.

P(S|W)>P(S|M)

З іншого боку, якщо вам цікаво, чому історії, які вижили, в основному від жінок, то заява 2 пояснює це, роблячи заяву 2 корисною навіть за відсутності іншої інформації.

Я не можу придумати що-небудь, яке твердження 1 корисне поза контекстом. Це, звичайно, не говорить нічого про пріоритет, який надається порятунку жінок, порівняно з будь-яким іншим. Єдине, що робить для мене твердження 1 - це змушує мене сказати «скажи більше».


0

На поверхні (або у відриві від реальності) обидва твердження видаються однаково марними для досягнення держави. Однак, враховуючи контекст, друге твердження явно є більш корисним.

Заява 2

w

w=px/(px+(1p)z)
pxz

H0:x>z

H0

(1w)px=w(1p)z
x=w(1p)z/((1w)p)
H0
x=w(1p)z/((1w)p)>z
w(1p)>(1w)p
0.9(1p)>0.1p
1p>p/9
p<0.9

Отже, для вашої думки, що жінки швидше виживають, все, що вам потрібно, це перевірити, чи було серед пасажирів менше 90% жінок. Це відповідає вашому припущенню 2, яке, мабуть, це означаєp1/2. Отже, я заявляю, що твердження 2 все, але стверджує, що жінки швидше виживали, тобто це досить корисно для вашої мети.

Заява 1

Перше твердження по-справжньому марно відокремлено, але має обмежене використання в контексті. Якщо ми робимо вигляд, що нічого не знаємо про подію, то говоримо цех=0,9 нічого не говорить про нас z, і чи х>z?

Однак, з того малого, що я знаю про подію - фільму я не бачив - це мабуть мало хz. Чому?

Ми знаємо з Успіння 2, що p1/2, тому загальний рівень виживання становить pх+(1-p)z. Якщо припустити, щохz і p1/2 ми отримуємо

pх+(1-p)zх=0,9
Іншими словами, вижили 90% усіх пасажирів, що не відповідає мені. Вони б зняли фільм і поговорили про нього протягом 100 років, якби вижили 90% пасажирів? Отже, воно повинно бути такимх>>z і менше половини пасажирів встигли.

Висновок

Я б сказав, що обидві заяви підтверджують вашу думку про те, що жінки швидше виживають, ніж чоловіки, але заява 1 робить це досить слабо, тоді як заява 2 у поєднанні з припущеннями майже напевно встановлює вашу гіпотезу як факт.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.