Ендрю Гелман в одному зі своїх останніх публікацій у блозі говорить:
Я не думаю, що для парадоксу Сімпсона необхідні контрфакти або потенційні результати. Я говорю це тому, що можна встановити парадокс Сімпсона зі змінними, якими неможливо маніпулювати, або для яких маніпуляції не мають безпосереднього інтересу.
Парадокс Сімпсона є частиною більш загального питання про те, що коефіцієнти регресії змінюються, якщо додати більше прогнозів, перегортання знаку насправді не потрібно.
Ось приклад, який я використовую у своєму вченні, що ілюструє обидва моменти:
Я можу провести регресію, що передбачає дохід від сексу та зросту. Я вважаю, що коефіцієнт сексу становить 10 000 доларів (тобто, порівнюючи чоловіка і жінку однакового зросту, чоловік в середньому зробить на 10 000 доларів більше), а коефіцієнт зросту - 500 доларів (тобто, порівнюючи двох чоловіків або двох жінок різної висоти, в середньому особа, яка зростає, зробить 500 доларів більше на дюйм росту).
Як я можу інтерпретувати ці кофе? Я відчуваю, що кофе висоти легко інтерпретувати (легко уявити, порівнюючи двох людей однієї статі з різною висотою), справді, здавалося б, якось «неправильно» регресувати на висоті без контролю за сексом, як багато сировини різницю між короткими і високими людьми можна "пояснити" різницею між чоловіками та жінками. Але кофе сексу у наведеній вище моделі здається дуже важким для тлумачення: навіщо порівнювати чоловіка та жінку, які мають обидва 66 сантиметрів у висоту? Це було б порівняння короткого чоловіка з високою жінкою. Все це міркування здається невиразним причинним, але я не думаю, що має сенс думати про це, використовуючи потенційні результати.
Я розмірковував над цим (і навіть коментував публікацію) і думаю, що тут є щось, що просить зрозуміти з більшою чіткістю.
До тих пір, поки не піде мова про тлумачення гендеру. Але я не бачу, у чому полягає проблема порівняння короткого чоловіка і високої жінки. Ось моя думка: насправді це має ще більший сенс (враховуючи припущення, що чоловіки в середньому вище). Ви не можете порівнювати «короткого чоловіка» та «короткої» жінки з точно тієї ж причини, що різниця у доходах пояснюється в якійсь частині різницею у зрості. Те ж саме стосується і високих чоловіків і високих жінок, і тим більше для коротких жінок і високих чоловіків (що, однак, не можна говорити, так би мовити). Тож в основному ефект росту зростає лише у випадку порівняння коротких чоловіків та високих жінок (а це допомагає інтерпретувати коефіцієнт за статтю). Чи не звучить дзвіночок на подібних основоположних концепціях, що стоять за популярними моделями відповідності?
Ідея парадоксу Сімпсона полягає в тому, що ефект популяції може відрізнятися від ефектів (ів) підгрупи. Це в деякому сенсі пов'язане з його пунктом 2 і тим, що він визнає, що висоту не слід контролювати поодинці (те, що ми говоримо, опускається змінним зміщенням). Але я не міг пов’язати це із суперечкою щодо коефіцієнта щодо статі.
Може, ви зможете це виразніше висловити? Або прокоментувати моє розуміння?