Розуміння парадоксу Сімпсона: приклад Ендрю Гелмана з регресуванням доходу від сексу та зросту


22

Ендрю Гелман в одному зі своїх останніх публікацій у блозі говорить:

  1. Я не думаю, що для парадоксу Сімпсона необхідні контрфакти або потенційні результати. Я говорю це тому, що можна встановити парадокс Сімпсона зі змінними, якими неможливо маніпулювати, або для яких маніпуляції не мають безпосереднього інтересу.

  2. Парадокс Сімпсона є частиною більш загального питання про те, що коефіцієнти регресії змінюються, якщо додати більше прогнозів, перегортання знаку насправді не потрібно.

Ось приклад, який я використовую у своєму вченні, що ілюструє обидва моменти:

Я можу провести регресію, що передбачає дохід від сексу та зросту. Я вважаю, що коефіцієнт сексу становить 10 000 доларів (тобто, порівнюючи чоловіка і жінку однакового зросту, чоловік в середньому зробить на 10 000 доларів більше), а коефіцієнт зросту - 500 доларів (тобто, порівнюючи двох чоловіків або двох жінок різної висоти, в середньому особа, яка зростає, зробить 500 доларів більше на дюйм росту).

Як я можу інтерпретувати ці кофе? Я відчуваю, що кофе висоти легко інтерпретувати (легко уявити, порівнюючи двох людей однієї статі з різною висотою), справді, здавалося б, якось «неправильно» регресувати на висоті без контролю за сексом, як багато сировини різницю між короткими і високими людьми можна "пояснити" різницею між чоловіками та жінками. Але кофе сексу у наведеній вище моделі здається дуже важким для тлумачення: навіщо порівнювати чоловіка та жінку, які мають обидва 66 сантиметрів у висоту? Це було б порівняння короткого чоловіка з високою жінкою. Все це міркування здається невиразним причинним, але я не думаю, що має сенс думати про це, використовуючи потенційні результати.

Я розмірковував над цим (і навіть коментував публікацію) і думаю, що тут є щось, що просить зрозуміти з більшою чіткістю.

До тих пір, поки не піде мова про тлумачення гендеру. Але я не бачу, у чому полягає проблема порівняння короткого чоловіка і високої жінки. Ось моя думка: насправді це має ще більший сенс (враховуючи припущення, що чоловіки в середньому вище). Ви не можете порівнювати «короткого чоловіка» та «короткої» жінки з точно тієї ж причини, що різниця у доходах пояснюється в якійсь частині різницею у зрості. Те ж саме стосується і високих чоловіків і високих жінок, і тим більше для коротких жінок і високих чоловіків (що, однак, не можна говорити, так би мовити). Тож в основному ефект росту зростає лише у випадку порівняння коротких чоловіків та високих жінок (а це допомагає інтерпретувати коефіцієнт за статтю). Чи не звучить дзвіночок на подібних основоположних концепціях, що стоять за популярними моделями відповідності?

Ідея парадоксу Сімпсона полягає в тому, що ефект популяції може відрізнятися від ефектів (ів) підгрупи. Це в деякому сенсі пов'язане з його пунктом 2 і тим, що він визнає, що висоту не слід контролювати поодинці (те, що ми говоримо, опускається змінним зміщенням). Але я не міг пов’язати це із суперечкою щодо коефіцієнта щодо статі.

Може, ви зможете це виразніше висловити? Або прокоментувати моє розуміння?


Перехресне підтвердження розглядає випадкові підмножини сукупності, намагаючись забезпечити мінімальне перевищення та найкраще узагальнення.
EngrStudent

1
Якщо я правильно розумію ваші занепокоєння, я думаю, що ви могли б отримати користь від того, щоб подивитися на парадокс Господа. @article {lord67, author = {Lord, FM}, title = {Парадокс у трактуванні групових порівнянь}, journal = {Психологічний вісник}, рік = {1967}, том = {68}, сторінки = {304- -305}, ключові слова = {змінити бали}} @ артикул {lord69, автор = {Лорд, FM}, назва = {Статистичні корективи при порівнянні попередніх груп}, журнал = {Психологічний вісник}, рік = {1969}, обсяг = {72}, сторінки = {336--337}, ключові слова = {змінити бали}}
mdewey

1
Нещодавно Джудея Перл виступила з черговою публікацією щодо парадоксу Сімпсона . Я впевнений, що він не згоден з викладом Гельмана. Один раз другий момент - це не «парадокс». Повернення оцінок як наслідок того, що ви обумовлюєте, є математичним фактом. Парадоксальним є те, що ви робите причинно-наслідкові інтерпретації обох оцінок. По-друге, чому це обмеження маніпулюваної причини лише
NRH

Відповіді:


9

Я не зовсім впевнений у вашому питанні, але можу зауважити його твердження та вашу плутанину в прикладі моделі.

Ендрю не зовсім зрозуміло , якщо науковий інтерес лежить в висоті регулюється асоціації секс-дохід або секс регулювати асоціацію висоти доходу. У причинно-наслідковій моделі секс спричиняє зріст, але зріст не спричиняє секс. Тож, якщо ми хочемо впливу сексу, коригування рівня зростає з урахуванням посередницьких упереджень (можливо, і упередження колайдера, оскільки багаті люди вище!). Я вважаю це заплутаним і смішним, коли бачу прикладне дослідження, яке інтерпретує інше"коваріати" (змішувачі та змінні точності), які включені в модель. Вони є дурницею, але просто надають адекватну стратифікацію, щоб зробити необхідне порівняння. Коригування по зросту, якщо вас цікавить висновок про різницю доходів на основі статі, - це неправильно робити.

Я погоджуюся, що контрфактики не потрібні для пояснення парадоксу Сімпсона. Вони можуть бути просто ознакою, властивою даним. Я думаю, що як сирі, так і скориговані RR є в деякому сенсі правильними, не будучи причинними. Більш проблематично, звичайно, коли метою є причинний аналіз, а переналагодження виявляє проблеми нерозбірності (що надуває АБО) та недостатнього розміру вибірки.

Як нагадування для читачів: Парадокс Сімпсона - дуже специфічне явище, яке стосується екземпляра, в якому асоціація перевертає напрямок після контролю за змішувальною змінною. Дані Berkeley Admissions були мотивуючим прикладом. Там грубі RR показали, що жінки рідше приймаються до Берклі. Однак після того, як стратифіковано відділеннями , RR показали, що жінки, швидше за все, приймаються у кожному відділенні . Вони просто з більшою ймовірністю зверталися до складних відділів, які відкидали багатьох людей.

Тепер у теорії причинного висновку ми б збилися з думки, що відділ, який застосовується, викликає гендер. Стать є внутрішньою правдою? Ну так і ні. Мієттен стверджує, що підхід до таких проблем "на базі дослідження": хто це населення? Це не всі студенти, які мають право на участь, саме ті, хто спеціально звертається до Берклі. Більш конкурентоспроможні відділи залучали жінок, щоб вони звернулися до Берклі, коли вони не зверталися б інакше. Для розширення: жінка, яка є дуже розумною, хоче потрапити в найкращу, скажімо, інженерну програму. Якби в Берклі не було чудової інженерної програми, вона б інакше не звернулася до Берклі, вона подала б заявку на MIT або CalPoly. Тож у такому світлі "прикладне студентське" населення, відділ викликає гендерну роль і є конфедером. (застереження: Я студент коледжу першого покоління, тому не знаю багато про те, які програми відомі чим).

Тож як ми узагальнимо ці дані? Це правда, що Берклі частіше впускав чоловіка, який подав заяву, ніж жінку. І правда, що у відділеннях Берклі частіше були прийняті жінки, ніж чоловіки. Грубі та стратифіковані RR є розумними заходами, навіть якщо вони є безпричинними. Це підкреслює, наскільки важливо бути точним з нашим формулюванням як статистиків (покірний автор не вважає себе віддаленим точним).

Плутанина - це явище, відмінне від нерозбірливості, інша форма упущеної змінної зміщення, але така, яка, як відомо, надає більш м'який вплив на оцінки. На відміну від логістичної регресії, не згортання не викликає зміщення в лінійній регресії, і розгляд безперервної дії на прикладі Гельмана повинен був бути описаний більш ретельно.

Інтерпретація Ендрю коефіцієнта статі в його моделі доходу, орієнтованої на стать / зріст, розкриває характер припущень моделі: припущення про лінійність. Дійсно, у лінійній моделі такі порівняння між чоловіками та жінками передбачені, оскільки для конкретної жінки ми можемо передбачитищо подібний зріст самця, можливо, заробив, навіть якщо його не спостерігали. Це також має місце, якщо можна змінити ефект, щоб нахил тенденції у жінок був іншим, ніж у чоловіків. З іншого боку, я не думаю, що мислити чоловіків і жінок однакового зросту - це 66 дюймів, справді це була б висока жінка і короткий чоловік. Мені це здається м'яким прогнозом, а не грубою екстраполяцією. Крім того, оскільки припущення щодо моделей можна чітко викласти, це допомагає читачам зрозуміти, що асоціація стратифікованого за рівнем статі несе інформацію, яка запозичена або усереднена міжзразки самців і жінок. Якби така асоціація була об'єктом висновку, сумлінний статистик, очевидно, розглядав би можливість зміни ефекту.


2
Чудова дискусія. Як статистик, мене це дратує без кінця, коли люди говорять про результати дослідження, але не впевнені, чи говорять вони про граничні чи умовні наслідки.
Кліф АВ

1

"навіщо порівнювати чоловіка і жінку, які мають обидва 66 дюймів у висоту, наприклад? Це було б порівняння короткого чоловіка з високою жінкою "

Модель передбачає, що дохід залежить від статі та зросту. Однак спосіб, за яким висота приносить більший дохід, може бути не однаковим для чоловіків і жінок. Жінок можна вважати високими «досить» на висоті, для якої чоловік все ще може вважатися коротким.

Спрощення моделі наступним чином може бути корисним.

Припустимо, що ви хочете відрегулювати ймовірність працевлаштування в якості торгового помічника у великих магазинах роздрібної торгівлі одягом і врахуйте наступну стратегію ідентифікації.

Ви зауважуєте, що роботодавці найчастіше наймають працівників, які відповідають певній мінімальній висоті, де "мінімум" відносно статі.

Замість того, щоб вимірювати висоту в см, припустимо, що існує два порогових значення, що визначають, на якому зрості відповідно чоловік і жінка "високі":> = 180 см для чоловіків і> = 170 см для жінок.

Якщо припустити, що порогові значення існують насправді (тобто роботодавці фактично відзначають різницю серед жінок і 169 см або 171 см у висоту), і що вони є правильними, ви можете створити манекен, що визначає високих / коротких самців і жінок. Чоловіки та жінки різного зросту можуть все ще потрапляти в одну категорію вашої манекени, і в той же час ваш захід відповідає реальній динаміці саме на цьому ринку праці.


-1

Чи хотіли б ви сказати (більш простими словами), що типова гендерна боротьба, говорячи про те, що чоловіки мають більше шансів, ніж жінки, оскільки їх дохід на p% вище буде парадоксально упередженим?

Можливо, в цьому і справа. Ми схильні бачити речі, як вони виглядають, а не аналізувати основні наслідки.

Щоб вийти за парадокс Сімпсона, нам доведеться відповісти на питання "скільки більше грошей заробляє жінка, виконуючи стільки ж неупереджених робіт у порівнянні з чоловіком?" тоді хтось може сказати, що вони повинні бути вагітними і виховувати дітей більше, ніж їхні колеги, що правда, але важливим питанням є те, що це начебто зітхнуло, щоб сказати: "жінки за самим фактом того, що жінки мають менше можливостей" і глибокий Аналіз із умовною статистикою дозволить нам побачити, що по суті, як правило, існують рівні можливості, і вони є іншими факторами, не пов'язаними з сексом, що робить статистику схожою на дискримінацію, пов'язану з питаннями сексу.


Може бути корисним зрозуміти, що такий аналіз не обов'язково може бути причинним чи пояснювальним, але описовим існуючим явищем.
AdamO
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.