Я вірю у швидку односкладну відповідь на ваше запитання,
Коли доцільно керувати змінною Y, а коли ні?
є "критерієм заднього двері".
Структурна причинно-наслідкова модель Юдеї Перл може вам остаточно сказати, які змінні є достатніми (а коли це необхідно) для обумовлення, щоб зробити причинний вплив однієї змінної на іншу. А саме на це відповідає, використовуючи критерій заднього дверей, який описаний на сторінці 19 цього оглядового документа Перла.
Основний застереження полягає в тому, що він вимагає від вас знати причинно-наслідковий зв’язок між змінними (у вигляді стрілок спрямованості на графіку). Навколо цього немає способу. Тут можуть зіграти складність та можлива суб’єктивність. Структурна причинно-наслідкова модель Перла дозволяє лише вам знати, як відповісти на правильні запитання, задані причинно-наслідковою моделлю (тобто спрямований графік), який набір причинних моделей можливий при розподілі даних або як шукати причинну структуру, виконавши правильний експеримент. Це не говорить вам, як знайти правильну причинно-наслідкову структуру з урахуванням лише розподілу даних. Насправді він стверджує, що це неможливо без використання зовнішніх знань / інтуїції про значення змінних.
Критерії задніх дверей можна вказати наступним чином:
Щоб знайти причинний вплив на Y , набір змінних вузлів S достатньо, щоб його обумовити, доки він задовольняє обом наступним критеріям:XY,S
1) Жоден елемент у не є нащадком XSX
2) блокує всі "задні двері" між X і YSXY
Тут, «тому-двері» шлях просто шлях стрілок , які починаються на і кінець зі стрілкою , що вказує на X . (Напрямок, на який вказують усі інші стрілки, не важливий.) А "блокування" - це сам по собі критерій, який має конкретне значення, який наведено на сторінці 11 вищевказаного посилання. Це той самий критерій, який ви читали б, дізнавшись про «поділ D». Я особисто виявив, що в главі 8 розпізнавання образів Єпископа та машинного навчання описана концепція блокування поділу D набагато краще, ніж джерело Перла, яке я пов’язував вище. Але це йде так:YX.
Набір вузлів, блокує шлях між X і Y , якщо він задовольняє , щонайменше , один з наступних критеріїв:S,XY
1) Один з вузлів шляху, тобто в випускає щонайменше одну стрілку на шляху (тобто стрілка спрямована від вузла)S,
2) Вузол, якого немає ні в ні пращур вузла в S, має дві стрілки на шляху, що "стикається" до нього (тобто зустрічатися з ним головою до голови)SS
Це або критерій, на відміну від загального критерію заднього двері, який є і критерієм.
Щоб було зрозуміло щодо критерію задньої двері, те, що він вам говорить, полягає в тому, що для даної причинної моделі при кондиціонуванні на достатній змінній ви можете дізнатися причинний вплив з розподілу ймовірності даних. (Як ми знаємо, одне спільне розподіл недостатньо для пошуку причинної поведінки, тому що за одне і те ж розподіл можуть бути відповідальні кілька причинних структур. Тому необхідна і причинно-наслідкова модель.) Розподіл можна оцінити, використовуючи звичайні статистичні / методи машинного навчання на даних спостережень. Тож поки ви знаєте що причинно-наслідкова структура дозволяє обумовлювати змінну (або набір змінних), ваша оцінка причинного впливу однієї змінної на іншу так само хороша, як і ваша оцінка розподілу даних, які ви отримуєте за допомогою статистичних методів.
Ось що ми виявляємо, коли застосовуємо критерій заднього двері до ваших двох діаграм:
Ні в одному випадку не існує шлях назад двері з в X . Так що це правда, що Y блокує "всі" задні двері, тому що таких немає. Однак у лівій діаграмі Y є прямим нащадком X , тоді як у правій діаграмі - ні. Тому Y дотримується критерію задньої двері на правій схемі, а не в лівій. Це не дивні результати.ZX.YYX,Y
Що це дивно, однак, полягає в тому , що в правій діаграмі, поки це повна картина, вам не потрібно умова на , щоб отримати повне причинне вплив X на Z . (Іншим способом сказано, що нульовий набір задовольняє критеріям задніх дверей і, таким чином, є достатнім для кондиціонування.) Інтуїтивно це вірно, тому що значення X не пов'язане з значенням Y, тому для достатньої кількості даних можна просто середнє значення для значення Y , щоб ізолювати ефект Y на Z . Одним із заперечень щодо цього може бути те, що дані обмежені, тому у вас немає репрезентативного розповсюдженняYXZXYYYZ.Значення Y. Але пам’ятайте, що критерій заднього двері передбачає, що ви маєте розподіл ймовірностей даних. В цьому випадку ви можете аналітично ізолювати Y . Маргіналізація над кінцевим набором даних - лише оцінка. Крім, зверніть увагущо цедужемалоймовірнощо це повна картина. Є ймовірність зовнішніх факторівякі впливають на X . Якщо ці чинники такчи інакшепов’язані з Y , тоді потрібно зробити більше роботи, щоб зрозуміти, чипотрібно обумовлювати Y чи навіть його достатньо. Якщо ви малюєте іншу стрілку від Y до X , то Y стає необхідним контролем.YY.X.YYYXY
Це, звичайно, дуже прості приклади, коли інтуїція достатня, щоб знати, коли можна чи не можна керувати. Але ось ще кілька прикладів, коли це не очевидно, дивлячись на діаграму, і ви можете використовувати критерії заднього двері. Для наступної діаграми ми запитуємо , якщо він досить для контролю Y при визначенні причинного впливу X на Z .YYXZ.
Перше , що потрібно відзначити , що в обох випадках, не є нащадком X . Тож він проходить цей критерій. Наступне , що потрібно зазначити , що в обох випадках існує кілька бекдор шляху від Z до X . Два в лівій схемі і три в правій.YX.ZX.
Z←Y→XZ←W→B←A→X. YY B,B,YZ←Y→X
Z←W→B→Y→X. Y Z←Y→XZ←W→B←A→X,B.
YAWXZB.XZB,BAWBAWXZ
Як я вже згадував до використання критерію заднього двері, необхідно знати причинно-наслідкову модель (тобто "правильну" діаграму стрілок між змінними). Але Структурна причинно-наслідкова модель, на мій погляд, також дає найкращий і формальний спосіб пошуку такої моделі або для того, щоб знати, коли пошук є марним. Він також має чудовий побічний ефект від надання таких термінів, як "заплутаність", "посередництво" та "хибність" (що мене бентежить), застарілими. Просто покажіть мені картинку, і я скажу вам, якими колами слід керувати.