Чи може зі статистичної точки зору можна зробити висновок про причинність, використовуючи показники схильності за допомогою спостережного дослідження?


27

Питання: Чи можна з точки зору статистиків (або практикуючих) зробити висновок про причинність, використовуючи показники схильності за допомогою спостережного дослідження (а не експерименту )?

Будь ласка, не хочете розпочати полум’яну війну чи фанатичну дискусію.

Передумови: В рамках нашої програми доктора філософії ми торкалися причинного висновку лише через робочі групи та кілька тематичних сесій. Однак є деякі дуже видатні дослідники в інших відділах (наприклад, HDFS, Sociology), які активно їх використовують.

Я вже був свідком досить бурхливої ​​дискусії з цього питання. Тут я не маю наміру починати. Це означає, з якими посиланнями ви стикалися? Які точки зору у вас є? Наприклад, один аргумент, який я чув проти оцінки схильності, як причинно-наслідкового методу, полягає в тому, що ніколи не можна зробити висновок про причинність через опущені змінні зміщення - якщо ви випустите щось важливе, ви розриваєте причинний ланцюг. Це нерозв'язна проблема?

Відмова від відповідальності: На це запитання може не бути правильної відповіді - цілком класно, натиснувши cw, але я особисто дуже зацікавлений у відповідях і буду радий декількома хорошими посиланнями, які містять приклади реального світу.

Відповіді:


16

На початку статті, спрямованої на сприяння використанню ПС в епідеміології, Оукс і Церква (1), цитуються твердження Ернана і Робінса щодо заплутаного ефекту в епідеміології (2):

Чи можете ви гарантувати, що на результати спостережуваного дослідження не вплине незмірна безладдя? Єдина відповідь, яку може надати епідеміолог, - «ні».

Це не просто говорити про те, що ми не можемо гарантувати, що результати спостережувальних досліджень є неупередженими або марними (адже, як сказав @propofol, їх результати можуть бути корисними для проектування RCT), але також і те, що PS звичайно не пропонують повного рішення цього питання. Проблема або, принаймні, не обов'язково дають кращі результати, ніж інші методи узгодження або багатоваріантності (див., наприклад, (10)).

Оцінки схильності (ПС) за будовою є ймовірнісними, а не причинними показниками. Вибір коваріатів, які входять до функції оцінки схильності, є ключовим елементом для забезпечення його надійності, а їх слабкість, як було сказано, головним чином відрізняється від того, щоб не контролювати непомічених плутанини (що цілком ймовірно в ретроспективних дослідженнях чи дослідженнях випадків контролю ) . Необхідно враховувати й інші фактори: (а) неправильне визначення моделі вплине на оцінки прямого ефекту (не дуже, ніж у випадку OLS), (б) можуть бути відсутні дані на рівні коваріатів; (c) PS не подолати синергетичні ефекти, які, як відомо, впливають на причинно-наслідкову інтерпретацію (8,9).

Щодо посилань, я знайшов слайди Роджера Ньюсона - « Причинність», «плутанина» та «схильність» - порівняно добре збалансований щодо плюсів і мінусів використання балів схильності, з ілюстраціями реальних досліджень. Було також кілька хороших робіт, в яких обговорювалося використання показників схильності в спостережних дослідженнях або екологічній епідеміології два роки тому в статистиці медицини, і я додаю пару з них в кінці (3-6). Але мені подобається огляд Перла (7), оскільки він пропонує більш широку перспективу щодо причинно-наслідкових зв'язків (PS обговорюються на стор. 117 та 130). Очевидно, ви знайдете ще багато ілюстрацій, переглянувши прикладні дослідження. Я хотів би додати дві останні статті від Вільяма Р. Шадіша, які потрапили на веб-сайт Ендрю Гельмана (11,12). Обговорення використання показників схильності обговорюється, але два документи в основному зосереджуються на причинному висновку в спостережних дослідженнях (і на тому, як він порівнюється з рандомізованими параметрами).

Список літератури

  1. Oakes, JM and Church, TR (2007). Запрошений коментар: Методи підвищення рівня схильності в епідеміології . Американський журнал епідеміології , 165 (10), 1119-1121.
  2. Ернан М. А. та Робінс Дж. М. (2006). Інструменти причинного висновку: сон епідеміолога? Епідеміологія , 17, 360-72.
  3. Рубін, Д. (2007). Конструкція проти аналізу спостережних досліджень причинних наслідків: Паралелі з розробкою рандомізованих випробувань . Статистика в медицині , 26, 20–36.
  4. Шрієр, І. (2008). Лист до редакції . Статистика в медицині , 27, 2740–2741.
  5. Перл, Дж. (2009). Зауваження щодо методу оцінки схильності . Статистика в медицині , 28, 1415–1424.
  6. Стюарт, Е.А. (2008). Розробка практичних рекомендацій щодо використання показників схильності: обговорення "Критичної оцінки відповідності показників схильності в медичній літературі між 1996 та 2003 роками" Пітера Остіна . Статистика в медицині , 27, 2062–2065.
  7. Перл, Дж. (2009). Причинний висновок у статистиці: огляд . Статистичні опитування , 3, 96-146.
  8. Oakes, JM and Johnson, PJ (2006). Відповідність показника схильності до соціальної епідеміології . В методах соціальної епідеміології Дж. М. Оукс і С. Кауфман (ред.), С. 364-386. Джоссес-Басс.
  9. Höfler, M (2005). Причинно-наслідковий висновок, заснований на зустрічних фактах . Методологія медичних досліджень BMC , 5, 28.
  10. Winkelmayer, WC і Kurth, T. (2004). Оцінки схильності: допомога чи галас? Нефрологічна діалізна трансплантація , 19 (7), 1671-1673.
  11. Shadish, WR, Clark, MH та Steiner, PM (2008). Чи можуть не випадкові експерименти дати точні відповіді? Випадковий експеримент, який порівнює випадкові та не випадкові призначення . JASA , 103 (484), 1334-1356.
  12. Кук, TD, Shadish, WR, і Wong, VC (2008). Три умови, за яких експерименти та спостережні дослідження дають порівнянні причинно-наслідкові оцінки: нові висновки з порівняльних досліджень . Журнал аналізу політики та управління , 27 (4), 724–750.

11

Оцінки схильності зазвичай використовуються у відповідній літературі. Оцінки схильності використовують коваріати попереднього лікування для оцінки ймовірності отримання лікування. По суті, регресія (або просто звичайна OLS, або logit, probit тощо) використовується для обчислення шкали схильності до лікування, оскільки ваші результати змінних та показники попереднього лікування - це ваші коваріати. Після того, як буде отримана хороша оцінка показника схильності, суб'єкти з аналогічними показниками схильності, але отриманими різними методами лікування, співпадають один з одним. Ефект лікування - це різниця в засобах між цими двома групами.

Розенбаум та Рубін (1983) показують, що відповідність лікуваним та контрольним суб'єктам, що використовують лише показник схильності, є достатньою для усунення всіх зміщення в оцінці ефекту лікування, що виникає з-за спостережуваних коваріатів, які використовувались для побудови оцінки. Зауважте, що цей доказ вимагає використання справжнього показника схильності, а не оцінки. Перевагою такого підходу є те, що перетворює проблему зіставлення в декількох вимірах (по одному для кожного коваріату перед обробкою) в універсальний випадок узгодження --- велике спрощення.

Розенбаум, Пол Р. та Дональд Б. Рубін. 1983. " Центральна роль показника схильності в спостережних дослідженнях для причинних наслідків ". Біометрика. 70 (1): 41--55.


8

Тільки потенційне рандомізоване дослідження може визначити причинність. У спостережувальних дослідженнях завжди буде шанс незміреного або невідомого коваріату, який унеможливлює приписування причинності.

Однак спостережні випробування можуть свідчити про сильну зв'язок між x і y, і тому корисні для створення гіпотез. Ці гіпотези необхідно підтвердити рандомізованим випробуванням.


Я повністю з вами згоден. Спостережне дослідження може бути корисним для виявлення деяких асоціацій, які, в свою чергу, можна перевірити, використовуючи набагато більш жорсткі рамки (рандомізоване випробування, як ви пропонуєте).
Sympa

Акуратний вираз. Не можу більше погодитися з вами зі словом "сильна" асоціація між x і y.
Кевін Кан

7

Здається, питання стосується двох речей, які насправді слід розглядати окремо. По-перше, чи можна зробити висновок про причинність із спостережливого дослідження, і на цьому ви можете протиставити погляди, скажімо, Перла (2009), який стверджує, що так, якщо ви зможете правильно моделювати процес, а не погляд @propofol, хто буде знайти багато союзників в експериментальних дисциплінах і хто може поділитися деякими думками, висловленими у (досить незрозумілому, але, тим не менш, хорошому) нарисі Гербера та ін. (2004). По-друге, якщо припустити, що ви думаєте, що причинність може бути виведена з даних спостережень, ви можете задатися питанням, чи корисні методи оцінки схильності для цього. Методи оцінювання схильності включають різні стратегії кондиціонування, а також зворотне зважування схильності. Гарну рецензію дають Лунсфорд та Девідян (2004).

Хоча трохи зморшок: відповідність балів схильності та зважування також використовуються при аналізі рандомізованих експериментів, коли, наприклад, існує інтерес до обчислення "непрямих ефектів", а також, коли виникають проблеми потенційно невипадкового виснаження або випадання ( в такому випадку те, що у вас є, нагадує спостережне дослідження).

Список літератури

Гербер А та ін. 2004. "Ілюзія навчання із спостережливих досліджень". У роботі Шапіро I та ін. Проблеми та методи дослідження політики , Кембриджський університетський прес.

Lunceford JK, Davidian M. 2004. "Розшарування та зважування за допомогою оцінки схильності при оцінці причинно-наслідкових ефектів лікування: порівняльне дослідження". Статистика в медицині 23 (19): 2937–2960.

Перл Дж. 2009. Причинність (2-е видання) , Кембриджський університетський прес.


Добре, що ви цитуєте всю книгу з Перлини.
chl

0

Звичайна мудрість стверджує, що лише рандомізовані контрольовані випробування ("реальні" експерименти) можуть виявити причинність.

Однак це не так просто.

Однією з причин того, що рандомізація може бути недостатньою, є те, що у «малих» вибірках закон великої кількості недостатньо «сильний», щоб забезпечити збалансованість усіх відмінностей. Питання: що "занадто мало" і коли починається "досить великий"? Сен-Мон (2015) тут стверджує, що "досить великий" може початися в тисячах (n> 1000)!

Зрештою, справа полягає в балансуванні відмінностей між групами, в контролі за різницями. Тож навіть в експериментах слід бути дуже обережними, щоб збалансувати відмінності між групами. Згідно з підрахунками Сен-Мон (2015), цілком можливо, що в менших зразках можна значно краще зрівняти (вручну врівноважувати) зразки.

Щодо ймовірності. Звичайно, вірогідність ніколи не може дати остаточну відповідь - якщо тільки ймовірність не є крайньою (нульовою чи одиничною). Однак в науці ми часто стикалися з ситуаціями, якщо нам не вдалося надати переконливу відповідь, оскільки речі важкі. Звідси необхідність вірогідності. Ймовірність - це не що інше, як спосіб висловити свою невпевненість у заяві. Як така, вона схожа на логіку; дивіться Бріггса (2016) тут .

Отже, ймовірність допоможе нам, але не дасть переконливих відповідей, не буде впевненості. Але це дуже корисно - висловити невизначеність.

Зауважимо також, що причинність - це не головне питання статистики. Припустимо, два засоби відрізняються "значно". Чи не означає, що змінна групування є причиною різниці вимірюваної змінної? Ні (не обов’язково). Незалежно від того, яку саме статистику використовують - показник схильності, p-значення, коефіцієнти Байєса тощо - таких методів (практично) ніколи не вистачає для резервного копіювання причинних претензій.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.