Чи означає статистична незалежність відсутність причинного зв'язку?


40

Дві випадкові величини A і B статистично незалежні. Це означає, що в DAG процесу: і звичайно . Але чи це також означає, що від В до А немає вхідних дверей?(AB)P(A|B)=P(A)

Тому що тоді нам слід отримати . Отже, якщо це так, чи автоматично статистична незалежність означає відсутність причинного зв'язку?P(A|do(B))=P(A)

Відповіді:


37

Отже, якщо це так, чи автоматично статистична незалежність означає відсутність причинного зв'язку?

Ні, і ось простий зустрічний приклад з багатовимірною нормою,

set.seed(100)
n <- 1e6
a <- 0.2
b <- 0.1
c <- 0.5
z <- rnorm(n)
x <- a*z + sqrt(1-a^2)*rnorm(n)
y <- b*x - c*z + sqrt(1- b^2 - c^2 +2*a*b*c)*rnorm(n)
cor(x, y)

З відповідним графіком

введіть тут опис зображення

Тут ми маємо, що і є гранично незалежними (у багатоваріантному нормальному випадку нульова кореляція передбачає незалежність). Це відбувається тому, що зворотний шлях через точно скасовує прямий шлях від до , тобто . Таким чином, . Тим не менш, безпосередньо викликає , і ми маємо, що , що відрізняється від .xyzxycov(x,y)=bac=0.10.1=0E[Y|X=x]=E[Y]=0xyE[Y|do(X=x)]=bxE[Y]=0

Асоціації, втручання та зустрічні факти

Я думаю, що тут важливо зробити деякі роз’яснення стосовно асоціацій, втручань та зустрічних дій.

Причинно-наслідкові моделі тягнуть за собою твердження про поведінку системи: (i) під пасивними спостереженнями, (ii) під час втручань, а також (iii) зустрічних дій. І незалежність на одному рівні не обов'язково переходить на інший.

Як показує приклад вище, ми не можемо мати асоціації між і , тобто , і все одно має бути так, що маніпуляції на змінюють розподіл , тобто .XYP(Y|X)=P(Y)XYP(Y|do(x))P(Y)

Тепер ми можемо піти на крок далі. Ми можемо мати причинно-наслідкові моделі, коли втручання на не змінює розподіл популяції , але це не означає відсутність зустрічної причинності! Тобто, навіть якщо , для кожного окремого їх результат був би інакше , якщо б ви змінили його . Саме такий випадок описаний користувачем20160, як і в моїй попередній відповіді тут.XYP(Y|do(x))=P(Y)YX

Ці три рівні складають ієрархію завдань причинно-наслідкового виводу з точки зору інформації, необхідної для відповіді на запити кожного з них.


1
Дякую, саме це я шукав. Тож я здогадуюсь, що моя плутанина була спричинена (жоден каламбур) не думав, що статистична незалежність також означає поділ між двома змінними. Але це працює лише навпаки, правильно?
користувач1834069

@ user1834069 правильно, d-розділення передбачає незалежність, але незалежність не означає d-поділу. Ці два приклади, коли розподіл невірний графіку, і ви можете бачити, це залежить від вибору параметризації. Якщо ми змінимо параметри, то залежність з’явиться знову.
Карлос Сінеллі

Гарний приклад. Якщо я добре пам’ятаю, це одне з неперевірених припущень видобутку причинних даних видобутку з даних спостережень. Для лінійних моделей у SEM книга Перла також згадує, що множина коефіцієнтів, що призводять до невірного розподілу, має міру 0.
Vimal

37

Припустимо, у нас є лампочка, керована двома перемикачами. Нехай і позначають стан перемикачів, який може бути або 0, або 1. Нехай позначає стан маякової лампи, який може бути або 0 (вимкнено), або 1 (увімкнено). Ми налаштували ланцюг таким чином, що лампочка вмикається, коли два перемикачі знаходяться в різних станах, і вимикається, коли вони перебувають в одному стані. Отже, схема реалізує ексклюзив або функцію: .S1S2LL=XOR(S1,S2)

За конструкцією причинно пов'язаний з та . Враховуючи будь-яку конфігурацію системи, якщо ми переключимо один вимикач, стан лампочки зміниться.LS1S2

Припустимо, обидва перемикачі спрацьовують незалежно відповідно до процесу Бернуллі, де ймовірність перебування в стані 1 дорівнює 0,5. Отже, , а і є незалежними. У цьому випадку з конструкції схеми ми знаємо, що і, крім того, . Тобто, знаючи стан одного вимикача, нам нічого не говорить про те, чи буде лампочка включена чи вимкнена. Таким чином, і є незалежними, як і і .p(S1=1)=p(S2=1)=0.5S1S2P(L=1)=0.5p(LS1)=p(LS2)=p(L)LS1LS2

Але, як зазначено вище, причинно пов'язаний із та . Отже, статистична незалежність не означає відсутність причинного зв'язку.LS1S2


2
Користувач, ти маєш рацію, що в цьому прикладі є причинно-наслідкова зв’язок із відсутністю залежності, як я пояснюю тут stats.stackexchange.com/questions/26300/… , однак у цьому прикладі ми також маємо, що , тому він не відповідає безпосередньо на питання ОП. P(L|do(S1))=P(L)
Карлос Сінеллі

користувач, запитання будь ласка: а як щодо ? Тобто це також дорівнює ? Я особисто думаю, що для будь-яких , , але . Маю рацію? (Я бачу, що це не дуже пов’язано, але я хочу ще раз перевірити своє розуміння)p(L|S1,S2)p(L)(vL,v1,v2){0,1}3p(L=vL|S1=v1)=p(L=vL|S2=v2)=0.5 p(L=vL|S1=v1,S2=v2){0,1}
печерний чоловік

0

Виходячи зі свого питання, ви можете подумати так:

P(AB)=P(A)P(B) коли і є незалежними. Можна так само мати на увазіAB

P(AB)/P(A)=P(B|A)=P(B) . Також,

P(AB)/P(B)=P(A|B)=P(A) .

У цьому плані я вважаю, що незалежність означає відсутність причинного зв'язку. Однак залежність не обов'язково означає причинну причину.


2
Я запитую, чи означає, що ? (використовуючи позначення Pearl Do-calculus)P ( A | d o ( B ) ) = P ( A )P(AB)=P(A)P(B)P(A|do(B))=P(A)
користувач1834069
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.