Чи можете ви пояснити парадокс Сімпсона рівняннями замість таблиць на випадок надзвичайних ситуацій?


14

Напевно, я не маю чіткого розуміння парадоксу Сімпсона . Неофіційно мені відомо, що середнє значення відповіді Y1, згруповане за всіма можливими рівнями фактора А, може бути вище, ніж середнє значення відповіді Y2 для всіх рівнів А, навіть якщо середнє значення Y1 для кожного рівня А (для кожної групи) становить завжди менше, ніж відповідне середнє значення Y2. Я читав приклади, але все одно дивуюсь щоразу, коли бачу це, можливо, тому, що я не вчуся добре на конкретних прикладах: у мене виникають проблеми їх узагальнення. Я найкраще навчаюсь, і швидше побачу пояснення у формулах. Чи можете ви пояснити парадокс, покладаючись на рівняння, замість того, щоб рахувати таблиці?

Крім того, я думаю, що причина мого здивування полягає в тому, що я могла підсвідомо робити певні припущення щодо середніх показників, пов'язаних з парадоксом, що, можливо, не відповідає дійсності. Можливо, я забув зважити кількість проб у кожній групі? Але тоді я хотів би побачити рівняння, яке показує мені, що оцінка загальної середньої величини є більш точною, якщо я зважую кожну середню групу за кількістю зразків у кожній групі, тому що (якщо це правда) це не очевидно мені взагалі. Наївно я б вважав, що оцінка E[Y1] має нижчу стандартну помилку, коли у мене більше зразків, незалежно від зважування.


1
У мене пов’язаний пост тут з моделюванням. Моделювання може бути корисним для розуміння парадоксу
Сімпсона

ось машина, що виробляє парадокси Сімпсона на вимогу!
kjetil b halvorsen

Відповіді:


11

Ось загальний підхід до розуміння Парадокса Сімпсона алгебраїчно для даних підрахунку.

Припустимо, що у нас є дані про виживання для експозиції та ми створюємо таблицю на випадок 2х2. Щоб все було просто, у нас буде однакове підрахунок у кожній комірці. Ми могли б це розслабити, але це зробило б алгебру досить безладним.

DiedSurvivedDeath RateExposedXX0.5UnexposedXX0.5

У цьому випадку рівень смертності є однаковим як у групах, що піддаються впливу, так і у неекспонованих.

Тепер, якщо ми розділимо дані, скажімо, на одну групу для жінок та іншу групу для чоловіків, ми отримаємо 2 таблиці з наступними підрахунками:

Самці:

DiedSurvivedDeath RateExposedXaXbaa+bUnexposedXcXdcc+d

і для жінок:

DiedSurvivedDeath RateExposedX(a1)X(b1)a1a+b2UnexposedX(c1)X(d1)c1c+d2

a,b,c,d[0,1]

Парадокс Сімпсона відбудеться тоді, коли рівень смертності підданих чоловіків більший, ніж рівень смертності для чоловіків, що не піддаються впливу, І рівень смертності для підданих жінок більший, ніж рівень смертності для жінок, що не піддаються впливу. Альтернативно, це також буде мати місце, коли рівень смертності підданих чоловіків менше, ніж рівень смертності для чоловіків, що не піддаються впливу, І рівень смертності для підданих жінок менше, ніж рівень смертності для жінок, що не піддаються впливу. Тобто коли

(aa+b<cc+d) and (a1a+b2<c1c+d2)

Or 

(aa+b>cc+d) and (a1a+b2>c1c+d2)

X=100a=0.5,b=0.8,c=0.9 . Тоді у нас буде парадокс Сімпсона, коли:

(0.50.8+0.9<0.90.9+d) and (0.510.5+0.82<0.910.9+d2)

(-9<г<1,44) і (0,96<г<1.1)

(0,96,1]

Другий набір нерівностей дає:

(0,50,8+0,9>0,90,9+г) і (0,5-10,5+0,8-2>0,9-10,9+г-2)

(г<-0,9 або г>1,44) і (0,96<г або г>1,44)

яка не має рішення для г[0,1]

Отже, для трьох значень, які ми обрали а,б, і c, щоб викликати парадокс Сімпсона, гмає бути більше 0,96. У випадку, коли значення було0,99 тоді ми отримаємо рівень смертності для чоловіків Росії

0,5/(0,5+0,8)=38% у групі впливу
0,9/(0,9+0,99)=48% у групі, що не виявилася

і для жінок:

(0,5-1)/(0,5+0,8-2)=71% у групі впливу
(0,9-1)/(0,9+0,99-2)=91% у групі, що не виявилася

So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.


16

Suppose we have data on 2 variables, x and y, for 2 groups, A and B.

Data in group A are such that the fitted regression line is

y=11x

with mean values of 2 and 9 for x and y respectively.

Data in group B are such that the fitted regression line is

y=25x

with mean values of 11 and 14 for x and y respectively.

So the regression coefficient for x is 1 in both groups.

Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is (2,9) for group A and (11,14) for group B. Then it is easy to see that the overall regression line slope must be (149)/(112)=0.55 which is the overall regression coefficient for x. Thus we see Simpson’s paradox in action – we have a negative association of x with y in each group individually, but a positive association overall when the data are aggregated. We can demonstrate this easily in R as follows:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

enter image description here

The red points and regression line are group A, the blue points and regression line are group B and the black line is the overall regression line.


Привіт, дякую за відповідь, але це ще один конкретний приклад парадоксу Сімпсона. Я спеціально попросив щось у вигляді теореми чи набору рівнянь, більш абстрактного та загального підходу. У будь-якому випадку, оскільки інших відповідей немає, я вивчу ваш приклад, і якщо я відчуваю, що це допомагає мені узагальнити концепцію, я прийму відповідь.
DeltaIV

3
@DeltaIV Я написав нову відповідь, використовуючи суто алгебраїчні аргументи.
Роберт Лонг
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.