Найцікавіші статистичні парадокси


112

Оскільки я вважаю їх захоплюючими, я хотів би почути, що люди в цій громаді вважають найцікавішим статистичним парадоксам і чому.


1
Деякі невеликі приклади, особливо в контексті опитування, тут: filipspagnoli.wordpress.com/category/statistics/…
Чарлі

Відповіді:


100

Це не парадокс сам по собі , але це дивний коментар, принаймні спочатку.

Під час Другої світової війни Авраам Уолд був статистиком уряду США. Він подивився на бомбардувальників, які поверталися з місій, і проаналізував схему «ран» кулі на літаках. Він рекомендував ВМС зміцнювати райони, де літаки не мали пошкоджень.

Чому? У нас ефекти відбору на роботі. Цей зразок дозволяє припустити, що пошкодження, нанесені в спостережуваних районах, можна протистояти. Або літаки ніколи не потрапляли в незаймані райони, малоймовірна пропозиція, або удари по цих частинах були смертельними. Ми дбаємо про літаки, які зійшли, а не лише ті, що повернулися. Ті, хто впав, швидше за все, зазнали нападу в місці, яке не торкнулося тих, що вижили.

Про копії його оригінальних меморандумів дивіться тут . Більш сучасний додаток дивіться у цій науково-американській публікації в блозі .

Розширюючись на тему, згідно з цим дописом в блозі , під час Першої світової війни введення жерстяного шолома призвело до більшої рани голови, ніж звичайна тканинна шапка. Чи був новий шолом гіршим для солдатів? Немає; хоча травми були вищими, загибелі були меншими.


3
Пригадую, я читав це в декількох місцях раніше, але в мене немає посилання. Чи є такий, який ви можете додати?
кардинал

1
@cardinal, я знайшов для вас кілька записок. Схоже, дослідження було насправді для США
Чарлі

Десь є розсип гіпотетичного літака для цього прикладу, але я не можу його знайти.
Фоміт

+1. Це приклад упередженості виживання , можливо, найбільш згубної з упереджень. Я поширився на це у відповідь.
Кліф АВ

47

Інший приклад - екологічна помилка .

Приклад
Припустимо, що ми шукаємо співвідношення між голосуванням і доходом, регресуючи частку голосів тодішнього сенатора Обами щодо середнього доходу держави (у тисячах). Отримуємо перехоплення приблизно 20 і коефіцієнт нахилу 0,61.

Багато хто трактує цей результат так, що люди з більшим доходом частіше голосують за демократів; Дійсно, популярні книги преси висловили цей аргумент.

Але зачекайте, я думав, що багаті люди, швидше за все, є республіканцями? Вони є.

Що насправді ця регресія нам говорить, це те, що багаті держави частіше голосують за демократа, а бідні держави , швидше за все, будуть голосувати за республіканця. У межах даної держави багаті люди мають більшу ймовірність голосувати за республіканців, а бідні люди швидше голосують за демократа. Дивіться роботу Ендрю Гельмана та його співавторів .

Без додаткових припущень ми не можемо використовувати групові (сукупні) дані для висновку про поведінку на рівні індивідуума. Це екологічна помилка. Дані на рівні групи можуть говорити лише про поведінку на рівні групи.

Для того, щоб зробити стрибок до індивідуальних висновків, нам потрібно припущення про постійність . Тут вибір голосуючих осіб найбільш систематично не відрізняється від середнього доходу держави; людина, яка заробляє $ X у багатій державі, повинна мати стільки ж шансів проголосувати за демократа, як і той, хто заробляє $ X у бідній державі. Але люди в штаті Коннектикут, на всіх рівнях доходів, швидше голосують за демократа, ніж люди в Міссісіпі на тих же рівнях доходу . Отже, припущення про послідовність порушується, і ми приводимо до неправильного висновку (обдуреного агресивним зміщенням ).

Ця тема була частим захопленням покійного Девіда Фрідмана ; див. цей документ , наприклад. У цій роботі Фрідман пропонує засоби для обмеження ймовірностей індивідуального рівня, використовуючи групові дані.

Порівняння з парадоксом Сімпсона в
іншому місці цього КЗ, @Michelle пропонує парадокс Сімпсона як хороший приклад, як це є насправді. Парадокс Сімпсона та екологічна хибність тісно пов'язані, але однозначно. Два приклади відрізняються сутністю наданих даних та використовуваних аналізів.

Стандартна постановка парадоксу Сімпсона - це двостороння таблиця. У нашому прикладі тут припустимо, що ми маємо індивідуальні дані, і ми класифікуємо кожну особу як високий чи низький дохід. Ми отримаємо таблицю непередбачених ситуацій, що склалася, за результатами голосування 2х2. Ми бачимо, що більша частка людей з високим рівнем доходу проголосувала за демократа відносно частки людей з низьким рівнем доходу. Якби ми створили таблицю надзвичайних ситуацій для кожної держави, однак, ми побачимо протилежну схему.

В екологічній помилковості ми не розбиваємо доходи на дихотомічну (або, можливо, мультихотомічну) змінну. Щоб отримати державний рівень, ми отримуємо середній (або середній) дохід держави та державну частку голосів і здійснюємо регресію і виявляємо, що держави з більшим доходом швидше голосують за демократа. Якби ми зберігали дані на індивідуальному рівні та проводили регресію окремо за станом, ми виявили б протилежний ефект.

Підсумовуючи, різниці:

  • Режим аналізу : Ми можемо сказати, керуючись нашими навичками підготовки SAT, що парадокс Сімпсона полягає у таблицях на випадок надзвичайних ситуацій, оскільки екологічна помилка полягає у коефіцієнтах кореляції та регресії.
  • Ступінь агрегації / характер даних : Оскільки парадокс-приклад Сімпсона порівнює два числа (частка голосів демократів серед осіб з високим рівнем доходу проти однакових для осіб з низьким рівнем доходу), екологічна помилка використовує 50 балів даних ( тобто для кожної держави) для обчислення коефіцієнта кореляції . Щоб отримати повну історію на прикладі парадоксу Сімпсона, нам просто знадобляться два числа з кожного з п'ятдесяти станів (100 чисел), тоді як у випадку екологічної помилковості нам потрібні дані на рівні індивідуального характеру (інакше надається кореляції / укоси регресії на рівні держави).

Загальне спостереження
@NeilG зауважує, що це, мабуть, говорить про те, що у вашій регресії ви не можете мати жодного вибору з питань зміщення ненаблюдених / опущених змінних. Це вірно! Принаймні, в контексті регресії, я думаю, що майже будь-який «парадокс» - це лише особливий випадок зміщення зміщених змінних.

Зміщення вибору (див. Мою іншу відповідь на цей CW) можна контролювати, включаючи змінні, що керують вибором. Звичайно, ці змінні, як правило, не спостерігаються, викликаючи проблему / парадокс. Хибну регресію (інша моя інша відповідь) можна подолати, додавши тенденцію часу. Ці випадки, по суті, говорять про те, що у вас є достатня кількість даних, але потрібно більше прогнозів.

Що стосується екологічної помилки, це правда, вам потрібно більше прогнозів (тут специфічні для держави схили та перехоплення). Але для оцінки цих взаємозв'язків потрібно більше спостережень, а не індивідуальних, а не групових спостережень .

(До речі, якщо у вас є екстремальний вибір, коли змінна вибору прекрасно розділяє лікування та контроль, як у прикладі Другої світової війни, можливо, вам знадобиться більше даних, щоб оцінити регресію; там же, збиті літаки.)


Як можна формалізувати припущення про узгодженість ? Це здається припущенням, що в моделі не вистачає (причинних) плутанини.
Ніл G

2
Також наведений приклад є також прикладом парадоксу Сімпсона, оскільки умова на стан обертає кореляцію між доходом та стороною. Коли екологічна помилка відрізняється від парадоксу Сімпсона?
Ніл G

Я також хотів би зазначити, що робити висновки про асоціації на рівні групи або причинно-наслідкові зв’язки на основі асоціацій на рівні індивідууму або причинно-наслідкових зв’язків також є лише поганим: атомістична помилка, добре сформульована тут: [Diez-Roux, 1998] Diez-Roux, А.В. (1998). Повернення контексту в епідеміологію: змінні та помилки в багаторівневому аналізі. Американський журнал громадського здоров'я , 88 (2): 216–222.
Олексій

43

Мій внесок - парадокс Сімпсона, оскільки:

  • причини парадоксу для багатьох людей не інтуїтивні, тому
  • це може бути дуже важко пояснити, чому результати є таким, як вони є для нелегких людей простою англійською мовою.

    tl; dr версія парадокса: статистична значимість результату, як видається, відрізняється залежно від того, як розподіляються дані. Причина, як видається, часто пов’язана з заплутаною змінною.

Ще один хороший контур парадокса тут .


4
+1, я думав про те, щоб поставити це сам. Для тих, хто цікавиться, парадокс Сімпсона також обговорюється на CV тут: stats.stackexchange.com/questions/21896
gung

3
Є кілька прикладів парадоксу Сімпсона, згаданих у цьому питанні математики .
Майк Співі

32

У статистиці немає парадоксів, лише головоломки, які чекають їх вирішення.

Тим не менш, мій улюблений - два конверти "парадокс" . Припустимо, я покладу два конверти перед вами і скажу вам, що один містить вдвічі більше грошей, ніж інший (але не який є). Ви міркуєте так. Припустимо, лівий конверт містить , тоді з 50% ймовірністю правий конверт містить а з 50% ймовірністю він містить , для очікуваного значення . Але звичайно, ви можете просто перевернути конверти і зробити висновок, а лівий конверт містить рази більше значення правого конверта. Що трапилось?x2x0.5x1.25x1.25


блискучий парадокс - що цікаво, якщо ми підемо з "другою" інтерпретацією у вікіпедії та спробуємо обчислити , виявимо, що для запобігання переваги переключення нам потрібен де . Розв’язування означає, що ми отримуємо . Аналогічно можна обчислити де і отримаємо .... Химерність! E[B|A=a]E[B|A=a]=a=2ap+a2(1p)p=Pr(A<B|A=a)p Е[А| B=b]=b=2bq+bp=13q=Pr(B<A|B=b)q=1E[A|B=b]=b=2bq+b2(1q)q=Pr(B<A|B=b)q=13
ймовірністьлогічний

6
Я виступив з доповіддю про цей парадокс, в якому гра насправді грається з аудиторією, з реальними грошима (як правило, чек у приймаючої установи). Це привертає їх увагу ...
whuber

Подумайте, я вирішив це ... Парадокс вирішується, коли ми визнаємо два парадокси конвертів неправильно пропонуємо 1) є три можливі величини: 0,5x, x і 2x, коли в конвертах лише дві величини (скажімо, x і 2х), і 2) про те, що ми апріорі знаємо, що лівий конверт містить х (у такому разі правий конверт міститиме 2x зі 100% впевненістю!). З урахуванням можливих значень x та 2x випадковим чином, призначених для двох конвертів, правильною відповіддю є очікуване значення 1,5x, незалежно від того, виберу я лівий або правий конверт.
RobertF

3
@RobertF Ситуація складніша. Припустимо, що відомо, що гроші розподіляються у двох конвертах наступним чином. Киньте справедливу монету, поки вона не висадить голови і порахуйте кількість n разів, коли монету було кинуто. Помістіть 2 ^ n доларів в один конверт і 2 ^ (n + 1) в інший. Тепер ви можете проводити дуже точні розрахунки очікування і все ще зберігати парадокс.
Іттай Вайс

31

Проблема сплячої краси .

Це недавній винахід; Про це активно обговорювались у невеликому наборі філософських журналів за останнє десятиліття. Є стійкі прихильники двох дуже різних відповідей ("Халферс" та "Треті"). Це викликає питання про природу віри, ймовірності та обумовленості, а також змусило людей використати квантово-механічну інтерпретацію "багатьох світів" (серед інших химерних речей).

Ось заява з Вікіпедії:

Спляча красуня-волонтер проходить наступний експеримент і розповідається про всі наступні деталі. У неділю її кладуть спати. Потім справедлива монета кидається, щоб визначити, яка експериментальна процедура проводиться. Якщо монета піднімає голови, Красуню прокидають і опитують у понеділок, і тоді експеримент закінчується. Якщо на монеті з’являються хвости, її прокидають та опитують у понеділок та вівторок. Але коли в понеділок її знову засинають, їй призначають дозу препарату, що викликає амнезію, що гарантує, що вона не може запам'ятати своє попереднє пробудження. У цьому випадку експеримент закінчується після того, як вона буде опитана у вівторок.

Щоразу, коли сплячу красуню прокидають і опитують її, її запитують: "Яка зараз ваша впевненість у твердженні, що монета висадила голови?"

Позиція Третього полягає в тому, що СБ повинна відповідати "1/3" (це простий підрахунок теорії Байєса), а позиція Халфера полягає в тому, що вона повинна сказати "1/2" (адже, очевидно, це правильна ймовірність справедливої ​​монети! ). ІМХО, вся дискусія ґрунтується на обмеженому розумінні ймовірності, але хіба це не вся справа в дослідженні очевидних парадоксів?

Принц Флорімонд знаходить сплячу красуню

(Ілюстрація проекту Gutenberg .)


Хоча це не місце, щоб намагатися розв’язати парадокси - лише заявити про них - я не хочу залишати людей висячими, і я впевнений, що більшість читачів цієї сторінки не хочуть проникати через філософські пояснення. Ми можемо скористатись порадою від Е.Т. Джейнеса , який замінює питання "як ми можемо побудувати математичну модель здорового глузду людини" - що нам потрібно, щоб продумати проблему Сплячої краси - "Як ми могли побудувати машину що може виконувати корисні правдоподібні міркування, дотримуючись чітко визначених принципів, що виражають ідеалізований здоровий глузд? Можна клонуватицей робот (замість введення химерного препарату амнезії) для вівторкової частини експерименту, тим самим створивши чітку модель налаштування SB, яку можна однозначно проаналізувати. Моделюючи це стандартним способом, використовуючи теорію статистичних рішень, то виявляється, що тут задаються справді два питання ( який шанс, що справедлива монета приземлиться головою? Та який шанс, що монета висадила голови, залежно від того, що ви були клон, який прокинувся? ). Відповідь або 1/2 (у першому випадку), або 1/3 (у другому, використовуючи теорему Байєса). Ніяких квантово-механічних принципів не було залучено до цього рішення :-).


Список літератури

Арнценій, Франк (2002). Роздуми про сплячу красуню . Аналіз 62,1 стор 53-62. Ельга, Адам (2000). Переконання в самостійному розміщенні та проблема сплячої краси. Аналіз 60 pp 143-7.

Franceschi, Paul (2005). Спляча красуня та проблема зменшення світу . Передрук.

Гройсман, Беррі (2007). Кінець кошмару сплячої красуні .

Льюїс, D (2001). Спляча красуня: відповідь Ельзі . Аналіз 61,3 с. 171-6.

Папіно, Давид та Віктор Дура-Віла (2008). Третина і еверетянин: відповідь на "Квантову сплячу красуню" Льюїса .

Пуст, Джоель (2008). Хорган про сплячу красуню . Синтеза 160 с. 97-101.

Винеберг, Сьюзен (без дат, можливо, 2003). Застереження про красуню про красу .

Все можна знайти (або принаймні знайти кілька років тому) у Мережі.


1
Як ви вважаєте, не менш ефективно формулювати рішення в термінах "базових одиниць"? Я маю на увазі, ви повинні врахувати, чи базовою одиницею є людина, чи співбесіда. У 1/2 осіб буде голова, але 1/3 інтерв'ю будуть. Потім, щоб вибрати основну одиницю, ми можемо переглянути питання та фразу як "Який шанс, що це інтерв'ю пов'язане з результатом" голови "?"
Джонатан

1
СБ не знає, скільки було проведено інтерв'ю, і питання полягає в її оцінці ймовірності, а не в оцінці експериментаторів. З її точки зору, кількість інтерв'ю неможливо визначити.
whuber

2
Я думаю, вам слід прочитати аргументи спочатку в літературі, Аарон. (Я визнаю, що я третій, але я думаю, що півзахисники не вважають ваші міркування переконливими. Принаймні, вам потрібно показати їм, чому їх аргументи хибні.)
whuber

1
Справедливий момент, @whuber, я тепер ще більше вивчив літературу. Я читаю Сплячу красуню Елліса : відповідь Ельзі . Саме це речення мене хвилює на початку розділу «4. Мій аргумент '. "Лише нові відповідні докази, центрировані або без цензури, призводять до зміни довіри". Я подумаю далі і, можливо, ще раз про це буду вести блог. У мене була тривала дискусія з семи іншими докторантами про це!
Аарон Мак-Дейд

1
Чи дозволяється Сплячої красуні дивитися на календар, коли прокинувся? Якщо в понеділок, то вона повинна відповісти P (X = голова) = 0,5. Якщо вівторок, то P (X = голова) = 0.
RobertF

25

St.Petersburg парадокс , який змушує вас думати по- іншому на понятті і значенні очікуваного значення . Інтуїція (в основному для людей, що мають досвід статистики) та розрахунки дають різні результати.


5
X1,X2,nX¯nN(0,1)Var(nX¯n)17

@cardinal Будь-який шанс ви могли опублікувати деякі деталі цього питання як окрему відповідь?
Срібна рибка

Xif(n)fVar(nX¯n)

Xif(i)XiVar(nX¯n)=1ni=1nf(i)f(i)Var(nX¯n)

22

Джеффріс-Линдли парадокс , який показує , що при деяких обставинах по замовчуванням і Байес частотних метод перевірки гіпотез можуть дати абсолютно суперечливі відповіді. Це дійсно змушує користувачів задуматися про те, що саме означають ці форми тестування, і подумати, чи справді цього хочуть. Для недавнього прикладу дивіться це обговорення .


20

Там відома помилка двох дівчат:

У сім'ї з двома дітьми, які шанси, якщо один з дітей - дівчинка , що обидва діти - дівчата?

Більшість людей інтуїтивно кажуть 1/2, але відповідь така 1/3. Основне питання полягає в тому, що рівномірний вибір "однієї дівчини, з усіх дівчат з одним братом і сестрами" випадковим чином не такий, як рівномірний вибір "однієї родини, з усіх сімей з двома дітьми і хоча б однієї дівчини".


Цей спосіб досить простий для з'єднання з інтуїцією, як тільки ви його зрозумієте, але є і більш складні версії, які складніше зрозуміти:

У сім'ї з двома дітьми, які шанси, якщо один із дітей - хлопчик, народжений у вівторок , що обидва діти - хлопчики? (Відповідь: 13/27)

У сім’ї з двома дітьми, які шанси, якщо один із дітей - дівчинка на ім’я Флорида , що обидва діти - дівчата? (Відповідь: дуже близька до 1/2, якщо "Флорида" - надзвичайно рідкісна назва)


Більше інформації про всі ці головоломки можна знайти у цій відповіді .
(Також: Більше інформації про хлопчика, народженого у вівторок , більше інформації про дівчинку на ім'я Флорида )


3
Відповідь точно 1/3не є 2/3? Тільки один ізGB, BG, GG
Мартін Сміт

3
Стаття "хлопчик, народжений у вівторок" - це добре. Його головний пункт, який зроблений дуже чітко ("проблема недостатньо визначена"), полягає в тому, що відповідь залежить від імовірнісної моделі, яку приймається. Сказавши, що відповідь "13" - це введення в оману (в кращому випадку).
whuber

@Martin: hehe whoops :)
BlueRaja - Danny Pflughoeft

2
Причина цих проблем настільки заплутана в тому, що питання сформульовано так, що дуже важко встановити, що таке простір гіпотези. Це, в свою чергу, робить його заплутаним щодо того, що насправді є "однаково ймовірними" випадками (а отже, і що слід враховувати).
ймовірністьлогічний

1
p(B1G2)=p(G1B2)p(G1G2)2p(B1G2)+p(G1G2)

12

Вибачте, але я не можу допомогти собі (я теж люблю статистичні парадокси!).

Знову ж, можливо, це не парадокс сам по собі та інший приклад зміщення пропущених змінних.

Хибні причинно-наслідкові зв'язки / регресія
Будь-яка змінна з часовою тенденцією буде корелювати з іншою змінною, яка також має тенденцію часу. Наприклад, моя вага від народження до 27 років буде сильно співвідноситися з вагою від народження до 27 років. Очевидно, що моя вага не обумовлена вашою вагою. Якби це було, я б просив, щоб ви ходили в спортзал частіше, будь ласка.

xtyt

xt=α0+α1t+ϵt andyt=β0+β1t+ηt.

yt=γ0+γ1xt+νt
xtγ1

Виконуючи аналіз часових рядів, ви повинні бути впевнені, що ваші змінні нерухомі або ви отримаєте ці помилкові результати причинно-наслідкових зв’язків.

(Я повністю визнаю, що плагіатував свою власну відповідь, дану тут .)


11

Один з моїх улюблених - проблема Monty Hall. Я пам’ятаю, дізнавшись про це в класі елементарної статистики, розповідав моєму татові, як ми обидва зневірилися, я імітував випадкові числа і ми намагалися вирішити проблему. На наш подив це було правдою.

В основному проблема полягає в тому, що якщо у вас було три двері на ігровому шоу, за яким одна - приз, а інші два - нічого, якщо ви вибрали двері, а потім вам сказали про дві інші двері, одна з двох не була призовою і вам дозволяється перемикати ваш вибір, якщо ви так вибрали, вам слід переключити поточну двері на решту дверей.

Ось також посилання на моделювання R: LINK


7

Парадокс Паррондо:

З wikipdedia : "Парадокс Паррондо, парадокс в теорії ігор, був описаний як: Комбінація програшних стратегій стає виграшною стратегією. Вона названа на честь її творця Хуана Паррондо, який відкрив парадокс у 1996 році. Більш пояснювальний опис :

Існують пари ігор, кожна з яких більша ймовірність програшу, ніж виграш, для яких можна побудувати виграшну стратегію, граючи в ігри поперемінно.

Парондо розробив парадокс у зв'язку зі своїм аналізом броунівського храповика, продуманим експериментом над машиною, яка може нібито витягувати енергію з випадкових рухів тепла, популяризованих фізиком Річардом Фейнманом. Однак парадокс зникає, коли ретельно аналізується ".

PB(W)=3/4+ϵPA(W)=1/10+ϵ

Існує також нещодавніший пов'язаний парадокс під назвою " суміш Елісона ", який показує, що ми можемо взяти два IID і некорельовані серії, і випадково їх скремтувати таким чином, що певні суміші можуть створити результуючу серію з ненульовою автокореляцією.


6

Цікаво, що Про проблему з двома дітьми та проблему Монті Холла так часто згадують разом у контексті парадоксу. Обидва ілюструють очевидний парадокс, вперше проілюстрований у 1889 р., Який називається "Коробка Бертранда Парадокс", який може бути узагальнений для представлення будь-якого. Мені здається найцікавішим "парадокс", тому що ті самі дуже освічені, дуже розумні люди відповідають на ці дві проблеми протилежним чином стосовно цього парадоксу. Він також порівнює принцип, який використовується в карткових іграх, таких як міст, відомий як Принцип обмеженого вибору, де його роздільна здатність перевірена часом.

Скажіть, у вас є випадково вибраний предмет, який я називатиму "коробкою". Кожен можливий ящик має принаймні одне з двох симетричних властивостей, але деякі мають і те, і інше. Я буду називати властивості "золотом" і "сріблом". Ймовірність того, що коробка - це просто золото, - P; а оскільки властивості симетричні, P - це також ймовірність того, що коробка - це просто срібло. Це робить ймовірність того, що вікно має лише одне властивість 2P, і ймовірність того, що воно має обидва 1-2P.

Якщо вам скажуть, що коробка - це золото, але не те, чи це срібло, ви можете спокусити сказати, що шанси, що це просто золото, є P / (P + (1-2P)) = P / (1-P). Але тоді вам доведеться вказати таку ж ймовірність для одноколірної коробки, якби вам сказали, що це срібло. І якщо ця ймовірність дорівнює P / (1-P) кожного разу, коли вам повідомляється лише один колір, він повинен бути P / (1-P), навіть якщо вам не кажуть колір. Але ми знаємо, що це 2P з останнього абзацу.

Цей очевидний парадокс вирішується, зазначивши, що якщо коробка має лише один колір, то неоднозначності щодо того, який колір вам скажуть, немає. Але якщо їх є дві, вибір мається на увазі. Ви повинні знати, як цей вибір був зроблений для того, щоб відповісти на питання, і це є коренем очевидного парадоксу. Якщо вам не скажуть, ви можете припустити, що колір обраний випадковим чином, зробивши відповідь P / (P + (1-2P) / 2) = 2P. Якщо ви наполягаєте, що P / (1-P) є відповіддю, ви неявно припускаєте, що не було можливості, щоб інший колір міг бути згаданий, якщо б він не був єдиним кольором.

У проблемі Monty Hall аналогія кольорів не дуже інтуїтивно зрозуміла, але P = 1/3. Відповіді, засновані на двох незачинених дверях, які спочатку мали однакову нагороду, припускають, що Монти Холл повинен був відкрити двері, які він зробив, навіть якщо у нього був вибір. Ця відповідь P / (1-P) = 1/2. Відповідь, що дозволяє йому вибирати навмання, - 2P = 2/3 для ймовірності того, що комутація виграє.

У проблемі «Дві дитини» кольори в моїй аналогії досить добре порівнюються з гендерними ознаками. При чотирьох випадках P = 1/4. Щоб відповісти на запитання, ми повинні знати, як було визначено, що в сім’ї є дівчинка. Якщо можна було дізнатися про хлопчика в сім'ї за цим методом, то відповідь 2P = 1/2, а не P / (1-P) = 1/3. Трохи складніше, якщо вважати прізвище Флорида, або "народженим у вівторок", але результати ті ж. Відповідь точно 1/2, якби був вибір, і більшість тверджень проблеми передбачає такий вибір. І причина "зміни" з 1/3 на 13/27, або з 1/3 на "майже 1/2", здається парадоксальною та неінтуїтивною, тому, що припущення про вибір не є інтуїтивним.

У Принципі обмеженого вибору кажіть, що вам не вистачає певного набору еквівалентних карток - наприклад, Джек, Королева та Король тієї ж масті. Шанси стартують навіть у тому, що будь-яка конкретна карта належить конкретному опоненту. Але після того, як противник грає в одну, його шанси на те, щоб мати когось із інших, знижуються, оскільки він міг би грати в цю карту, якби мав її.


PG=PSP22P(1P)212PPG=PS=.8PGS=1.6PGS=.6P=.5

Вибачте, можливо, я не пояснив це добре, намагаючись бути якомога короткішим. Мій П був не ймовірність, що коробка має кольорове золото, це ймовірність, що це лише золото. Ймовірність, що воно має кольорове золото, становить 1-Р. І хоча ці дві властивості симетричні, вони не повинні бути незалежними, тому ви не можете просто помножити ймовірності. Також жодна скринька не є "ні". Бертран використав три коробки з двома монетами у кожній: золото + золото, золото + срібло та срібло + срібло. Коробка з будь-якою кількістю золотих монет - це «золото» в моєму узагальненні.
JeffJo

+1, це допомагає. Зараз я бачу фразу "принаймні один із двох" та слово "просто", яке я, мабуть, прокинув.
gung


2

Я знаходжу спрощену графічну ілюстрацію екологічної помилки (тут парадокс голосування багатих держав / бідних держав) допомагає мені зрозуміти на інтуїтивному рівні, чому ми бачимо змінити схему голосування, коли ми збираємо населення штату:

введіть тут опис зображення


3
Це приємний приклад, але я думаю, що це парадокс Сімпсона: en.wikipedia.org/wiki/Simpson%27s_paradox
Нік

1
@ Nick: цей конкретний приклад насправді відрізняється від Парадокса Сімпсона, але важко зрозуміти, яка помилка / парадокс застосовується в конкретній ситуації, оскільки вони виглядають однаково статистично. Різниця полягає в тому, що SP - це "помилковий ефект", який з'являється лише при аналізі підгруп. Ця тенденція, проте, є «справжнім ефектом», який з’являється лише при аналізі підгруп. У цьому випадку, це говорить про те, що хоча дохід як необмежене число не впливає сукупно на схему голосування, дохід, пов'язаний з вашими сусідами (вашою державою), впливає на схему голосування.
Джонатан

Це екологічна помилка, про яку йдеться нижче.
Чарлі

3
@Charlie "внизу" та "нагорі" - це функції будь-якого способу сортування читача сторінки (активний / найдавніший / голоси), і в будь-якому випадку порядок за деякими критеріями сортування може змінюватися з часом (включаючи типовий) . Як таке, можливо, краще згадати людину, яка розмістила обговорення, про яке ви посилаєтесь, або навіть посилання на нього.
Glen_b

2

Припустимо, ви отримали дані про народження в королівській родині якогось королівства. У родовому дереві відзначалося кожне народження. Що стосується цієї родини, це те, що батьки намагалися народити дитину лише після того, як народився перший хлопчик, а потім вже не було дітей.

Отже, ваші дані потенційно виглядають так:

G G B
B
G G B
G B
G G G G G G G G G B
etc.

Чи відобразить співвідношення хлопчиків і дівчат у цій вибірці загальну ймовірність народження хлопчика (скажімо, 0,5)? Відповідь та пояснення можна знайти в цій темі .


2
Ця відповідь звучить як головоломка, а не як парадокс. Я можу собі уявити, чому ви хотіли опублікувати це так, але я вважаю, що ця відповідь може бути кваліфікована як парадокс і відповідати цій темі, ви повинні бути більш чіткими.
амеба

2
Це запитання (з хлопцями та дівчатками , що розмінялися ) було задано на сайті stats.stackexchange.com/questions/93830 , який отримав велику кількість відповідей - не зовсім згоден ! (Я дізнався щось, серйозно сприйнявши проблему і обмірковуючи її все більш реалістичними способами, досліджуючи припущення, необхідні для цього.)
whuber

@whuber дякую за посилання! Я додав це в опис.
Тім

2

Це знову Парадокс Сімпсона, але "назад", а також вперед, походить з нової книги Джудеї Перл " Причинний вихід у статистику": буквар [^ 1]

Класичний парадокс Сімпона працює так: подумайте про те, щоб спробувати вибрати між двома лікарями. Ви автоматично вибираєте той із найкращими результатами. Але припустимо, той, хто має найкращі результати, обирає найпростіші випадки. Бідніші рейтинги інших є наслідком хитрішої роботи.

Тепер кого ви обираєте? Краще подивитись на результати, стратифіковані труднощами, а потім прийняти рішення.

Є ще одна сторона монети (черговий парадокс), яка говорить про те, що стратифіковані результати також можуть призвести вас до неправильного вибору.

Цього разу подумайте про те, вибрати наркотик чи ні. Препарат має токсичну побічну дію, але його терапевтичний механізм дії полягає через зниження артеріального тиску. В цілому, препарат покращує результати популяції, але при стратифікації на кров'яний тиск після лікування результати гірші як для груп низького, так і для високого артеріального тиску. Як це може бути правдою? Тому що ми ненавмисно розшаровувались на результатах, і в межах кожного результату все, що залишається спостерігати, - це токсичний побічний ефект.

Для уточнення, уявіть, що препарат призначений для виправлення розбитого серця, і це робить це за допомогою зниження артеріального тиску, а замість того, щоб розшаровуватися на артеріальний тиск, ми розшаровуємось на нерухомі серця. Коли препарат працює, серце фіксується (і артеріальний тиск буде нижчим), але деякі пацієнти також отримають токсичний побічний ефект. Оскільки лікарський засіб працює, у групі «нерухомого серця» буде більше пацієнтів, які вживали наркотики, ніж у пацієнтів, які приймають наркотики у групі «розбитого» серця. Більше пацієнтів, які приймають препарат, означає, що більше пацієнтів отримують побічні ефекти, і, мабуть, (але помилково) кращі результати для пацієнтів, які не приймали препарат.

Пацієнтам, які одужують, не приймаючи препарат, просто щастить. Пацієнти, які вживали наркотики та покращилися, - це суміш тих, хто потребував наркотиків, щоб оздоровитись, і тих, кому все-таки пощастило б. Огляд лише пацієнтів із «нерухомим серцем» означає виключення пацієнтів, які були б виправлені, якби вони вживали наркотики. Виключити таких пацієнтів означає виключити шкоду від неприйняття наркотиків, що, в свою чергу, означає, що ми бачимо лише шкоду від прийому наркотиків.

Парадокс Сімпсона виникає тоді, коли є інші причини, ніж лікування, наприклад, те, що ваш лікар займається лише хитрими випадками. Контроль за загальною причиною (хитрість проти легких випадків) дозволяє нам побачити справжній ефект. В останньому прикладі ми ненавмисно розшаровувалися на результат, а не на причину, а це означає, що справжня відповідь полягає в сукупності не стратифікованих даних.

[^ 1]: Перл Дж. Причинний вихід у статистику. John Wiley & Sons; 2016 рік


2

Одним із моїх "улюблених", який означає, що саме це зводить мене з розуму від інтерпретації багатьох досліджень (а часто і самих авторів, а не лише ЗМІ) - це " Survivorship Bias" .

Один із способів уявити це - припустимо, що існує якийсь ефект, який дуже згубно впливає на випробовуваних, настільки, що він має дуже хороші шанси вбити їх. Якщо суб'єкти піддаються цьому впливу до початку дослідження , то до моменту початку дослідження, у підданих, які ще живі, дуже велика ймовірність виявитись надзвичайно стійкими. Буквально природний відбір на роботі. Коли це станеться, дослідження помітить, що опромінені суб’єкти незвично здорові (оскільки всі нездорові вже померли або переконалися перестати піддаватися впливу). Це часто неправильно трактується, оскільки передбачає, що опромінення насправді добре для суб'єктів. Це результат ігнорування усікання (тобто ігноруючи суб'єктів, які померли, і не потрапили до дослідження).

Так само суб'єкти, які перестають піддаватися впливу під час дослідження, часто неймовірно нездорові: це тому, що вони зрозуміли, що тривале опромінення, ймовірно, вб'є їх. Але дослідження лише зауважує, що ті, хто кидає, дуже нездорові!

@ Відповідь Чарлі про бомбардувальників Другої світової війни можна розглядати як приклад цього, але сучасних прикладів теж багато. Недавній приклад - дослідження, в яких повідомляється, що пити 8+ чашок кави на день(!!) пов'язаний зі значно більшим здоров'ям серця у осіб старше 55 років. Багато людей з докторами інтерпретували це як "пити каву - це добре для вашого серця!", Включаючи авторів дослідження. Я читав це, як ви повинні мати неймовірно здорове серце, щоб після 55 років досі пити 8 чашок кави на день і не мати серцевого нападу. Навіть якщо це не вбиває вас, щойно щось виглядає занепокоєним щодо вашого здоров’я, всі, хто вас любить (плюс ваш лікар), негайно заохочують вас кинути пити каву. Подальші дослідження показали, що пиття такої кількості кави не мало сприятливих наслідків для молодших груп, що, на мою думку, є більше свідченням того, що ми спостерігаємо ефект виживання, а не позитивний причинний ефект. І все-таки є багато кандидатів, що бігають, говорячи "


Я не дуже впевнений у своїй інтерпретації. У Норвегії пити 8 чашок кави на день взагалі не є неприйнятним, середня вартість (включаючи дітей та інших нежитю) становить близько двох чашок на день. У Фінляндії середнє значення становить приблизно 2,5 склянки на день. Раніше я пив мор етан по десять чашок на день, але вже не так.
kjetil b halvorsen


-2

Нехай x, y і z - некорельовані вектори. І все ж x / z і y / z буде співвідноситися.


2
Чому це парадокс? це здається інтуїтивно зрозумілим.
lcrmorin

2
Я був би здивований, якби це зазвичай не було.
Glen_b

1
x/zx/zzX,Y,Z
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.