Чи охоплює парадокс Сімпсона всі випадки повернення від прихованої змінної?


10

Далі йде питання про безліч візуалізацій, пропонованих як «доказ за картиною» існування парадоксу Сімпсона, і, можливо, питання про термінологію.

Парадокс Сімпсона - досить просте явище для опису та надання чисельних прикладів (причина, чому це може статися, є глибокою та цікавою). Парадокс полягає в тому, що існують таблиці на випадок 2–2x2 («Анасті», категоричний аналіз даних), де гранична асоціація має інший напрямок від кожної умовної асоціації.

Тобто порівняння співвідношень у двох підгрупах може йти і в одному напрямку, але порівняння в об'єднаній сукупності йде в інший бік. У символах:

Є такі, що a + ba,b,c,d,e,f,g,h

a+bc+d>e+fg+h

але і

ac<eg

bd<fh

Це точно представлено у наступній візуалізації (з Вікіпедії ):

Парадокс Сімпсона у векторах

Фракція - це просто нахил відповідних векторів, і на прикладі легко помітити, що короткі В-вектори мають більший нахил, ніж відповідні L-вектори, але комбінований В-вектор має менший нахил, ніж комбінований L-вектор.

Існує дуже поширена візуалізація в багатьох формах, зокрема, на передній частині посилання на вікіпедію про Сімпсона:

навпаки схили в підгрупах

Це чудовий приклад збивання з пантелику, як прихована змінна (яка розділяє дві підгрупи) може показувати інший малюнок.

Однак математично подібне зображення жодним чином не відповідає відображенню таблиць на випадок надзвичайних ситуацій, які лежать в основі явища, відомого як парадокс Сімпсона . По-перше, лінії регресії перебувають над даними набору реальних значень точок, не враховуючи даних таблиці непередбачених ситуацій.

Також можна створювати набори даних з довільним відношенням нахилів у регресійних лініях, але в таблицях на випадок надзвичайних ситуацій існує обмеження, наскільки різні схили можуть бути. Тобто лінія регресії популяції може бути ортогональною для всіх регресій даних субпопуляцій. Але в Парадоксі Сімпсона співвідношення субпопуляцій, хоч і не є регресійним ухилом, не може відійти занадто далеко від об'єднаної сукупності, навіть якщо в іншому напрямку (ще раз див. Зображення порівняння з Вікіпедії).

Для мене цього достатньо здивуватися щоразу, коли я бачу останнє зображення як візуалізацію парадоксу Сімпсона. Але оскільки я бачу (що я називаю неправильні) приклади всюди, мені цікаво знати:

  • Чи пропускаю я тонке перетворення з оригінальних прикладів Сімпсона / Юля таблиць на випадок надзвичайних ситуацій у реальні значення, які виправдовують візуалізацію лінії регресії?
  • Безумовно, що Сімпсон є особливим випадком помилкової помилки. Чи тепер термін "Парадокс Сімпсона" прирівнюється до хибної помилки, так що незалежно від математики, будь-яка зміна напрямку через приховану змінну можна назвати Парадокс Сімпсона?

Додаток: Ось приклад узагальнення до 2xmxn (або 2 на m безперервним) таблицею: відсоткові кошики, зроблені щодо відстані, прихованої змінної - це тип пострілу

Якщо об'єднати постріл, схожий на те, що гравець робить більше пострілів, коли захисники ближче. Згруповані за типом пострілу (відстань від кошика дійсно), чим інтуїтивніше очікувана ситуація, що більше ударів буде зроблено, тим далі віддаляються захисники.

Цей образ я вважаю узагальненням Сімпсона до більш безперервної ситуації (відстань захисників). Але я все ще не бачу, як приклад лінії регресії є прикладом Сімпсона.


5
Парадокс Сімпсона не застосовується лише до категоричних цільових даних. Постійні цільові дані з категоричним фактором, що впливає на неї, як у вашому кінцевому графіку, можуть бути предметом парадоксу. Ключовим є те, що "категоричний фактор", незалежно від того, категорична чи змінна інтересу, чи будь-який чи всі інші фактори, що впливають на змінну інтересу, є категоричними.
jbowman

@jbowman ОК, я можу бачити, що SP може бути узагальненим поза категоричними даними до безперервного (я не бачив цього узагальнення; SP, здається, завжди представлений таблицями на випадок надзвичайних ситуацій), але я не бачу, як відповідає другий графік. Я маю на увазі, що я бачу очевидну, але невиразну метафору: «прихована змінна може змінити напрямок», але я просто не бачу, як узагальнення працює математично / точно.
Мітч

1
У вас є прихований категоричний фактор, який змушує "реальні" дані слідувати за двома кольоровими лініями, але, не знаючи про це, дані здаються, що слідують за пунктирною лінією. Розгляньте дорожньо-транспортні пригоди за віком як цільові та змінні осі x - не категоричні. Вони, здається, зменшуються з віком, правда? Тепер додайте "прихований фактор" "водіння в нетверезому стані". Синя лінія була б "за кермом у нетверезому стані", червона - "за кермом, не будучи п'яним". Враховуючи той прихований фактор, що співвідноситься з молоддю, нещасні випадки збільшуються з віком! (Не найреалістичніший приклад, я мушу визнати, але ця ідея рахується ...)
jbowman

@jbowman Це просто звучить як пояснення помилкової помилки, а не SP. Можливо, ви говорите, що ЗП і конфуз - це одне і те ж. Але це звучить у напрямку відповіді; можливо, ви могли б трохи формалізувати це і зробити зв’язок із SP більш чітким (врахуйте математично про те, як лінії регресії чимось схожі на порівняння співвідношення у випадку таблиці непередбачених ситуацій).
Мітч

1
xp

Відповіді:


8

Парадокс полягає в тому, що існують таблиці на випадок 2–2x2 (Аналіз категоричних даних), де гранична асоціація має інший напрямок від кожної умовної асоціації [...] Чи пропускаю я тонке перетворення з оригінальних прикладів Сімпсона / Юля з таблиць на випадок надзвичайних ситуацій у реальні значення, які виправдовують візуалізацію лінії регресії?

Основне питання полягає в тому, що ви прирівнюєте один простий спосіб показати парадокс як сам парадокс. Простий приклад таблиці надзвичайних ситуацій - це не парадокс сам по собі. Парадокс Сімпсона стосується суперечливих причинно-наслідкових інтуїцій при порівнянні граничних та умовних асоціацій, найчастіше через повороти знаків (або крайні ослаблення, такі як незалежність, як в оригінальному прикладі, наведеному самим Сімпсоном , в якому відміни немає знаків). Парадокс виникає, коли ви інтерпретуєте обидві оцінки причинно, що може призвести до різних висновків --- чи допомагає лікування чи шкодить пацієнту? І яку оцінку ви повинні використовувати?

E(Y|X)X>0E(Y|X,C=c)X<0,c

Безумовно, що Сімпсон є особливим випадком помилкової помилки.

Це неправильно! Парадокс Сімпсона не є особливим випадком помилкової помилки - якби це було саме так, то парадоксу взагалі не було б. Зрештою, якщо ви впевнені, що деякі стосунки збиті з пантелику, ви не здивуєтеся, побачивши сторнування або зменшення знаків у таблицях на випадок надзвичайних ситуацій чи коефіцієнтів регресії --- можливо, ви цього навіть очікували.

Тому, хоча парадокс Сімпсона стосується зворотного (або екстремального ослаблення) "ефектів" при порівнянні граничних та умовних асоціацій, це може бути не через заплутаність, а апріорі ви не можете знати, чи є гранична чи умовна таблиця "правильною" "для консультації, щоб відповісти на ваш причинний запит. Для цього потрібно знати більше про причинно-наслідкову структуру проблеми.

Розглянемо ці приклади, наведені в Перлі : введіть тут опис зображення

XYZZZZZ

Пояснення Перла, чому це було визнано "парадоксом" і чому воно все ще спантеличує людей, є дуже правдоподібним. Візьмемо, наприклад, простий випадок, зображений у (а): причинно-наслідкові наслідки не можуть просто так змінити. Отже, якщо ми помилково припускаємо, що обидві оцінки є причинними (граничними та умовними), ми були б здивовані, побачивши таке, що відбувається --- і люди, здається, провідні бачити причину в більшості асоціацій.

Тож повернемось до вашого основного (заголовного) питання:

Чи охоплює парадокс Сімпсона всі випадки повернення від прихованої змінної?

У певному сенсі це поточне визначення парадоксу Сімпсона. Але очевидно, що змінна умова не прихована, її потрібно дотримуватися, інакше ви б не бачили, як відбувається парадокс. Більшість дивовижних частин парадоксу випливає з причинно-наслідкових міркувань, і ця "прихована" змінна не обов'язково є конфедерацією.

Сумісні таблиці та регресія

yxz

yx

a+bc+de+fg+h=cov(y,x)var(x)

zz=1

aceg=cov(y,x|z=1)var(x|z=1)

z=0

bdfh=cov(y,x|z=0)var(x|z=0)

(cov(y,x)var(x))(cov(y,x|z)var(x|z))(cov(y,x)var(x))


1
Здається, на ваш погляд, парадокс Сімпсона стосується не лише можливості різниці в граничних і умовних асоціаціях, а й плутанини щодо того, яку з них «правильно» використовувати при інтерпретації даних? І Перл показує, що причинно-наслідкова структура - це те, що ми повинні використовувати для вирішення цього питання?
Пол

2
"Парадокс Сімпсона стосується суперечливих інтуїцій при порівнянні граничних та умовних асоціацій". Я не згоден з цим, парадокс Сімпсона конкретно стосується перевертання ознак при порівнянні сирого та стратифікованого результатів.
АдамО

2
@AdamO, хоча більшість людей використовують крайній випадок скасування знаків як "суворе" визначення парадоксу Сімпсона, оригінальний приклад Сімпсона насправді не мав відміни знаків.
Карлос Сінеллі

1
@Paul це точно так.
Карлос Сінеллі

2
@AdamO Я думаю, що пояснення Перла, чому це було визнано "парадоксальним", і чому це все ще спантеличує людей, є правдоподібним. Наприклад, у простому випадку (a), причинні наслідки не можуть просто так змінити. Отже, якщо ми думаємо причинно для обох випадків, ми були б здивовані, побачивши, що таке відбувається ---, і люди, здається, провідні бачити причинно-наслідкові зв’язки в більшості асоціацій.
Карлос Сінеллі

2

Чи пропускаю я тонке перетворення з оригінальних прикладів Сімпсона / Юля таблиць на випадок надзвичайних ситуацій у реальні значення, які виправдовують візуалізацію лінії регресії?

Так. Аналогічне подання категоричних аналізів можливе шляхом візуалізації логічних коефіцієнтів відповіді на осі Y. Парадокс Сімпсона виглядає приблизно так само, як і "сира" лінія, що йде проти тенденцій, характерних для прошарку, зважених на відстані, відповідно до рейтингового шару шару результату.

Ось приклад із даними про вступ Берклі

введіть тут опис зображення

Тут гендерний код є чоловічим / жіночим кодом, на осі X - грубі коефіцієнти прийому для чоловіків проти жінок; важка пунктирна чорна лінія показує гендерну перевагу: позитивний нахил говорить про упередженість до прийому чоловіків. Кольори являють собою надходження до конкретних відділів. У всіх випадках, окрім двох, нахил лінії, що відповідає специфіці за гендерною перевагою, є негативною. Якщо ці результати узагальнюються разом у логістичній моделі, яка не враховує взаємодії, загальний ефект - це зворотне сприяння визнанню жінок. Вони застосовувались у більш важких відділах частіше, ніж чоловіки.

Безумовно, що Сімпсон є особливим випадком помилкової помилки. Чи тепер термін "Парадокс Сімпсона" прирівнюється до хибної помилки, так що незалежно від математики, будь-яка зміна напрямку через приховану змінну можна назвати Парадокс Сімпсона?

Коротко, ні. Парадокс Сімпсона - це просто "те, що", тоді як бентежить "чому". Домінуюча дискусія була зосереджена на тому, де вони згодні. Плутанина може мати мінімальний або незначний вплив на оцінки, і, по черзі, парадокс Сімпсона, хоча і драматичний, може бути спричинений несполучниками. Як зауваження, терміни "прихована" чи "ховається" змінна є неточними. З точки зору епідеміолога, ретельний контроль та проектування дослідження повинні забезпечити можливість вимірювання чи контролю можливих факторів, що впливають на заплутаність. Їх не потрібно «приховувати», щоб бути проблемою.

Бувають випадки, коли оцінки балів можуть різко змінюватися, аж до зміни сторони, що не є результатом плутанини. Колайдери та посередники також змінюють наслідки, можливо, їх реверсують. Причинно-наслідкові міркування попереджають, що для вивчення ефектів основний ефект слід вивчати ізольовано, а не коригувати їх, оскільки стратифікована оцінка неправильна. (Схоже з неправильним висновком про те, що, коли ви бачите лікаря, ви хворієте, або що гармати вбивають людей, отже, люди не вбивають людей).


Отже, ви б сказали, що оригінальний приклад Сімпсона - це не випадок "парадоксу Сімпсона"?
Карлос Сінеллі

@CarlosCinelli, про який приклад ви б посилалися? Я не маю доступу до документа Сімпсона 1951 року, але враховуючи, що він опублікований в JRSS і не містить посилання на прикладний приклад в рефераті, це здається чисто теоретичною роботою.
АдамО

Це числовий приклад у параграфах 9 та 10, де він наводить однакові таблиці дій на випадок з двома різними історіями, які б призвели до двох різних причинно-наслідкових інтерпретацій. У цьому прикладі немає ознаки зворотного переходу, а лише гранична незалежність.
Карлос Сінеллі

2
Щоб зрозуміти, чому повернення знаків тут не має наслідків, просто уявіть ситуацію, коли лікування показує надзвичайно сильну асоціацію як для чоловіків, так і для жінок, але показує лише крихітну асоціацію серед населення загалом. Це все ще було б парадоксально занадто більшості людей, якщо його інтерпретувати причинно.
Карлос Сінеллі

@CarlosCinelli я б сказав , що це приклад плутаючи , але не парадокс Сімпсона сам по собі , але я не буду бити точки, я думаю , що ви зробили хороший аргумент і , можливо , я тримав в руках якісь - то неправильні припущення про те, що було і не було невловиме явище Парадокса Сімпсона.
АдамО
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.