Яке математичне визначення причинно-наслідкового зв’язку між двома випадковими змінними?
Математично причинно-наслідкова модель складається з функціональних зв'язків між змінними. Наприклад, розглянемо систему структурних рівнянь нижче:
x=fx(ϵx)y=fy(x,ϵy)
Це означає, що функціонально визначає значення (якщо ви втручаєтесь у це змінює значення ), але не навпаки. Графічно це зазвичай представлено , що означає, що входить в структурне рівняння y. Як додаток, ви також можете висловити причинно-наслідкову модель з точки зору спільного розподілу контрфактичних змінних, що математично еквівалентно функціональним моделям .xyxyx→yx
З огляду на вибірку із спільного розподілу двох випадкових величин X і Y, коли ми говоримо, що X викликає Y?
Іноді (або в більшості випадків) у вас немає знань про форму структурних рівнянь ,fxfy x→yy→xp(y,x) , навіть навіть про те, чи чи . Єдина інформація, яку ви маєте, - це спільний розподіл ймовірностей (або вибірки з цього розподілу).x→yy→xp(y,x)
Це призводить до вашого запитання: коли я можу відновити напрямок причинності лише з даних? Або, точніше, коли я можу відновити, чи входить у структурне рівняння або навпаки, лише з даних?xy
Звичайно, без принципово непереборних припущень щодо причинно-наслідкової моделі це неможливо . Проблема полягає в тому, що кілька різних причинно-наслідкових моделей можуть спричинити за собою однаковий спільний розподіл ймовірностей спостережуваних змінних. Найпоширеніший приклад - причинно-наслідкова лінійна система з гаусовим шумом.
Але за деякими причинно-наслідковими припущеннями, це може бути можливим --- і саме на це працює література з причинного виявлення. Якщо у вас немає попереднього викриття цієї теми, ви можете почати з « Елементів причинного висновку » Петерса, Джанзінга та Шолкопфа, а також з глави 2 «Причинності » Юдеї Перл. У нас на темі CV є посилання на причинно-наслідкове виявлення , але у нас ще не так багато посилань.
Отже, на ваше запитання не існує лише однієї відповіді, оскільки це залежить від припущень, які ви робите. У роботі, яку ви згадуєте, наводяться деякі приклади, такі як припущення лінійної моделі з неаусовим шумом. Цей випадок відомий як ЛІНГАН (скорочення для лінійної не-гауссової ациклічної моделі), ось приклад у R
:
library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1
# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat")
# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
# [,1] [,2]
# [1,] . .
# [2,] TRUE .
Зверніть увагу, у нас є лінійна причинно-наслідкова модель з неаууссовим шумом, де викликає а lingam правильно відновлює причинний напрямок. Однак зауважте, що це критично залежить від припущень LINGAM.x2x1
Що стосується цитованої вами статті, вони роблять це конкретне припущення (див. Їх "постулат"):
Якщо , то мінімальна довжина опису механізму, що відображає X на Y, не залежить від значення X, тоді як мінімальна довжина опису механізму, що відображає Y на X, залежить від значення Y.x→y
Зауважте, це припущення. Це ми називали б їх "умовою ідентифікації". По суті, постулат встановлює обмеження на спільний розподіл . Тобто, в постулаті сказано, що якщо у даних є певні обмеження, а якщо інші обмеження, дотримуються. Ці типи обмежень, які мають тестові наслідки (накладають обмеження на ), - це те, що дозволяє напряму відновити дані спостережень.p(x,y)x→yy→xp(y,x)
На завершення, результати причинного виявлення все ще дуже обмежені і залежать від вагомих припущень. Будьте уважні, застосовуючи їх у реальному контексті.