Коли недоцільно контролювати змінну?


15

Я можу придумати хоча б один наївний приклад. Припустимо, я хочу вивчити взаємозв'язок між X і Z. Я також підозрюю, що Y впливає на Z, тому я контролюю Y. Однак, як виявляється, мені невідомо, X викликає Y, а Y викликає Z. Тому, контролюючи для Y я "приховую" відносини між X і Z, оскільки X незалежний від Z, заданого Y.

Тепер, у попередньому прикладі, може бути так, що відносини, які я повинен вивчати, - це відносини між X і Y, Y і Z. Однак, якби я знав такі речі апріорі, я б не займався наукою в перше місце. Дослідження, яке я роблю зараз, свідчить про відсутність взаємозв'язку між X і Z, що не відбувається .... X і Z ARE пов'язані.

Це проілюстровано на наступній діаграмі залежності. У правильному сценарії Z залежить від X, а Y і X і Y незалежні. Ми правильно керуємо для Y, щоб визначити співвідношення між X і Z. У лівому сценарії Z залежить від Y, що залежить від X. X і Z незалежні від заданого Y, тому відносини між X і Z "прикриваються" контролем для Y.

Змінні_відносини

В основному моє запитання: "Коли доцільно керувати змінною Y, а коли ні?" ... Може бути важко або неможливо повністю дослідити взаємозв'язок між X і Y, але, наприклад, контроль Y на заданому рівні є варіант. Як ми вирішуємо перед проведенням нашого дослідження, і які загальні підводні камені контролюють занадто багато чи занадто мало?

Цитування високо оцінено.


7
Для прикладу, ваша точна ситуація випливає з оцінки впливу расової дискримінації. Нехай - раса. Нехай - зарплата. Нехай - освіта. Очевидно, що освіта впливає на заробітну плату, тому ви хочете контролювати це, АЛЕ якщо расова дискримінація спричиняє отримання расовою меншиною гіршої освіти, то контроль за освітою прикриє цю дискримінацію. Напр. див. Ніл і Джонсон (1996) . Як вказується у відповіді Алексіса, вам потрібно розібратися в деталях вашої проблеми. Існує не проста кнопка для натискання, яка вирішує все. Z YХZY
Меттью Ганн

1
Я не сподівався на просту кнопку натиснути. Справді, я був би дуже розчарований, якби на моє запитання виявилася тривіальна відповідь. :)
Скотт

1
@Repmat Так. Однак 4 припущення IV оцінки рідко виконуються, і навіть коли вони є, сила залучених асоціацій може змусити IV оцінку дати необ’єктивні результати. Дивіться, наприклад, причинно-наслідкову оцінку Ернана та Робінса (повний посилання та посилання у моїй відповіді), розділ 16: Оцінка інструментальних змінних.
Олексій

1
@ Алексис Звичайно, до ІV важко доїхати ... "Без безкоштовного обіду", і все, проте коли ви це зробите, ви часто будете знати це мало, або без сумнівів.
Репмат

1
@Repmat ... припущення для достовірних оцінок IV вимагають більшого, ніж зображені DAG ... вони справді досить слабкі.
Олексій

Відповіді:


7

Умови (тобто коригування) ймовірності певного результату, що дається деяким прогноктором щодо третіх змінних, широко практикуються, але, як ви правильно зазначаєте, можуть насправді внести зміщення в отриману оцінку як представлення причинних наслідків . Це може трапитися навіть із "класичними" визначеннями потенційного причинного прихильника, оскільки і сам, і сам передвістя, і інтерес, що цікавлять, можуть мати подальші причинно-наслідкові плутанини вгору за течією. Наприклад, у DAG нижче, наприклад, є класичним прихильником причинного впливу E на D , оскільки (1) він викликає і, таким чином, асоціюється з E , а (2) асоціюється з D, оскільки він пов'язаний зLЕDЕD , який пов'язаний з D . Однак або обумовлення, або стратифікація P ( D | E ) на L ("коллайдер") дасть необ'єктивні причинно-наслідкові оцінки впливу E на D, оскільки L змішується з D за допомогою вимірюваної змінної U 2 , а L плутається з E за незміреною змінною U 1 .U2DП(D|Е)LЕDLDU2LЕU1

DAG

Розуміння, на які змінні слід обумовити чи стратифікувати аналіз, щоб забезпечити неупереджену причинно-наслідкову оцінку, потребує ретельного розгляду можливих DAG, використовуючи критерії ідентифікації причинно-наслідкових ефектів - ніяких загальних причин, які не блокуються задніми шляхами - описані Pearl, Robins та іншими . Немає ярликів. Вивчіть загальні незрозумілі зразки. Вивчіть загальні моделі зміщення вибору. Практика.

Список літератури

Greenland, S., Pearl, J., and Robins, JM (1999). Причинно-наслідкові діаграми для епідеміологічних досліджень . Епідеміологія , 10 (1): 37–48.

Ернан, МА та Робінс, Дж. М. (2018). Причинний умовивід . Chapman & Hall / CRC, Boca Raton, FL

Мальдонадо, Г. та Ґренландія, С. (2002). Оцінка причинних наслідків . Міжнародний журнал епідеміології , 31 (2): 422–438.

Перл, Дж. (2000). Причинність: моделі, міркування та умовиводи . Cambridge University Press.


12

Я вірю у швидку односкладну відповідь на ваше запитання,

Коли доцільно керувати змінною Y, а коли ні?

є "критерієм заднього двері".

Структурна причинно-наслідкова модель Юдеї Перл може вам остаточно сказати, які змінні є достатніми (а коли це необхідно) для обумовлення, щоб зробити причинний вплив однієї змінної на іншу. А саме на це відповідає, використовуючи критерій заднього дверей, який описаний на сторінці 19 цього оглядового документа Перла.

Основний застереження полягає в тому, що він вимагає від вас знати причинно-наслідковий зв’язок між змінними (у вигляді стрілок спрямованості на графіку). Навколо цього немає способу. Тут можуть зіграти складність та можлива суб’єктивність. Структурна причинно-наслідкова модель Перла дозволяє лише вам знати, як відповісти на правильні запитання, задані причинно-наслідковою моделлю (тобто спрямований графік), який набір причинних моделей можливий при розподілі даних або як шукати причинну структуру, виконавши правильний експеримент. Це не говорить вам, як знайти правильну причинно-наслідкову структуру з урахуванням лише розподілу даних. Насправді він стверджує, що це неможливо без використання зовнішніх знань / інтуїції про значення змінних.

Критерії задніх дверей можна вказати наступним чином:

Щоб знайти причинний вплив на Y , набір змінних вузлів S достатньо, щоб його обумовити, доки він задовольняє обом наступним критеріям:XY,S

1) Жоден елемент у не є нащадком XSX

2) блокує всі "задні двері" між X і YSXY

Тут, «тому-двері» шлях просто шлях стрілок , які починаються на і кінець зі стрілкою , що вказує на X . (Напрямок, на який вказують усі інші стрілки, не важливий.) А "блокування" - це сам по собі критерій, який має конкретне значення, який наведено на сторінці 11 вищевказаного посилання. Це той самий критерій, який ви читали б, дізнавшись про «поділ D». Я особисто виявив, що в главі 8 розпізнавання образів Єпископа та машинного навчання описана концепція блокування поділу D набагато краще, ніж джерело Перла, яке я пов’язував вище. Але це йде так:YX.

Набір вузлів, блокує шлях між X і Y , якщо він задовольняє , щонайменше , один з наступних критеріїв:S,XY

1) Один з вузлів шляху, тобто в випускає щонайменше одну стрілку на шляху (тобто стрілка спрямована від вузла)S,

2) Вузол, якого немає ні в ні пращур вузла в S, має дві стрілки на шляху, що "стикається" до нього (тобто зустрічатися з ним головою до голови)SS

Це або критерій, на відміну від загального критерію заднього двері, який є і критерієм.

Щоб було зрозуміло щодо критерію задньої двері, те, що він вам говорить, полягає в тому, що для даної причинної моделі при кондиціонуванні на достатній змінній ви можете дізнатися причинний вплив з розподілу ймовірності даних. (Як ми знаємо, одне спільне розподіл недостатньо для пошуку причинної поведінки, тому що за одне і те ж розподіл можуть бути відповідальні кілька причинних структур. Тому необхідна і причинно-наслідкова модель.) Розподіл можна оцінити, використовуючи звичайні статистичні / методи машинного навчання на даних спостережень. Тож поки ви знаєте що причинно-наслідкова структура дозволяє обумовлювати змінну (або набір змінних), ваша оцінка причинного впливу однієї змінної на іншу так само хороша, як і ваша оцінка розподілу даних, які ви отримуєте за допомогою статистичних методів.

Ось що ми виявляємо, коли застосовуємо критерій заднього двері до ваших двох діаграм:

Ні в одному випадку не існує шлях назад двері з в X . Так що це правда, що Y блокує "всі" задні двері, тому що таких немає. Однак у лівій діаграмі Y є прямим нащадком X , тоді як у правій діаграмі - ні. Тому Y дотримується критерію задньої двері на правій схемі, а не в лівій. Це не дивні результати.ZX.YYX,Y

Що це дивно, однак, полягає в тому , що в правій діаграмі, поки це повна картина, вам не потрібно умова на , щоб отримати повне причинне вплив X на Z . (Іншим способом сказано, що нульовий набір задовольняє критеріям задніх дверей і, таким чином, є достатнім для кондиціонування.) Інтуїтивно це вірно, тому що значення X не пов'язане з значенням Y, тому для достатньої кількості даних можна просто середнє значення для значення Y , щоб ізолювати ефект Y на Z . Одним із заперечень щодо цього може бути те, що дані обмежені, тому у вас немає репрезентативного розповсюдженняYXZXYYYZ.Значення Y. Але пам’ятайте, що критерій заднього двері передбачає, що ви маєте розподіл ймовірностей даних. В цьому випадку ви можете аналітично ізолювати Y . Маргіналізація над кінцевим набором даних - лише оцінка. Крім, зверніть увагущо цедужемалоймовірнощо це повна картина. Є ймовірність зовнішніх факторівякі впливають на X . Якщо ці чинники такчи інакшепов’язані з Y , тоді потрібно зробити більше роботи, щоб зрозуміти, чипотрібно обумовлювати Y чи навіть його достатньо. Якщо ви малюєте іншу стрілку від Y до X , то Y стає необхідним контролем.YY.X.YYYXY

Це, звичайно, дуже прості приклади, коли інтуїція достатня, щоб знати, коли можна чи не можна керувати. Але ось ще кілька прикладів, коли це не очевидно, дивлячись на діаграму, і ви можете використовувати критерії заднього двері. Для наступної діаграми ми запитуємо , якщо він досить для контролю Y при визначенні причинного впливу X на Z .YYXZ.

Is it sufficient to control for $Y$ to find the causal impact of $X$ on $Z$?

Перше , що потрібно відзначити , що в обох випадках, не є нащадком X . Тож він проходить цей критерій. Наступне , що потрібно зазначити , що в обох випадках існує кілька бекдор шляху від Z до X . Два в лівій схемі і три в правій.YX.ZX.

ZYXZWBAX. YY B,B,YZYX

ZWBYX. Y ZYXZWBAX,B.

YAWXZB.XZB,BAWBAWXZ

Як я вже згадував до використання критерію заднього двері, необхідно знати причинно-наслідкову модель (тобто "правильну" діаграму стрілок між змінними). Але Структурна причинно-наслідкова модель, на мій погляд, також дає найкращий і формальний спосіб пошуку такої моделі або для того, щоб знати, коли пошук є марним. Він також має чудовий побічний ефект від надання таких термінів, як "заплутаність", "посередництво" та "хибність" (що мене бентежить), застарілими. Просто покажіть мені картинку, і я скажу вам, якими колами слід керувати.


3
Приємно. Я обговорював питання, чи варто додати Причинність Перла до розділу посилань моєї відповіді .... і тепер це зробив. :)
Олексій

0

Для вашого випадку Xце може бути або не підходить: якщо це лікування, то, можливо, ви зможете подолати свою проблему, використовуючи відповідність балів схильності, в яких ви все одно будете зберігати змінну, Yколи будете проводити відповідність. Іншими словами, ви врівноважуєте коваріати ( Yє одним з таких коваріатів), які передбачають отримання лікування X.
Зверніть увагу, як у наведеному вище немає посилання на змінну результатів Z. Ви також можете перевірити, наскільки збалансовані ваші спостереження (генеруючи таблицю балансу до і після, що відповідає), що може дати зрозуміти, скільки Xвизначається Y.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.