Розуміння теорії d-поділу в причинних байєсівських мережах


15

Я намагаюся зрозуміти логіку d-розділення в причинних байєсівських мережах. Я знаю, як працює алгоритм, але я не точно розумію, чому працює "потік інформації", як зазначено в алгоритмі.

введіть тут опис зображення

Наприклад, на графіку вище, давайте подумаємо, що нам задано лише X, а іншої змінної не спостерігається. Тоді, згідно з правилами d-поділу, потік інформації від X до D:

  1. X впливає на A, що є . Це нормально, оскільки A викликає X, і якщо ми знаємо про ефект X, це впливає на нашу думку про причину А. Потік інформації.П(А)П(А|Х)

  2. X впливає на B, що є . Це нормально, оскільки A було змінено нашими знаннями про X, зміна на A може вплинути на наші переконання щодо її причини, B.П(Б)П(Б|Х)

  3. X впливає на C, що є . Це нормально, оскільки ми знаємо, що B упереджено нашими знаннями про його непряму дію X, а оскільки B є упередженим X, це вплине на всі прямі та опосередковані наслідки B. C - це прямий ефект B, на нього впливають наші знання про X.П(С)П(С|Х)

Ну, до цього моменту для мене все гаразд, оскільки потік інформації відбувається відповідно до інтуїтивно зрозумілих причинно-наслідкових зв’язків. Але я не відчуваю особливої ​​поведінки так званих "V-структур" або "Колайдерів" у цій схемі. Відповідно до теорії d-поділу, B і D є загальними причинами С на наведеному вище графіку, і це говорить про те, що якщо ми не спостерігали C або когось із його нащадків, інформація про потік з X блокується при C. Ну, добре , але моє питання чому?

З трьох вищезазначених кроків, розпочатих з X, ми побачили, що на C впливають наші знання про X, а інформаційний потік відбувся відповідно до причинно-наслідкового зв’язку. Теорія d-поділу говорить, що ми не можемо перейти від C до D, оскільки C не спостерігається. Але я думаю, що оскільки ми знаємо, що C є упередженим і D є причиною C, D слід постраждати також, поки теорія говорить про протилежне. Я чітко пропускаю щось у своєму мислення, але не бачу, що це таке.

Тому мені потрібно пояснення, чому потік інформації блокується на C, якщо C не спостерігається.


Він не переходить від X до D, якщо спостерігається лише X. Ви заявляєте це трохи нижче зображення. (Хоча ви правильно це описуєте далі).
ziggystar

Я це вже знаю, що інформаційний потік блокується на C, де у нас є "V-структура". Що я хочу знати, це чому; чому V-структура блокує інформаційний потік, коли ми не спостерігаємо C, з точки зору причинно-наслідкового зв’язку.
Ufuk Can Bicici

Відповіді:


6

Хіба не інтуїтивно зрозуміло, що ти не можеш переконатись від причини до непоміченої дії до іншої причини? Якщо дощ (B) і спринклер (D) є причинами мокрого ґрунту (C), то чи можете ви стверджувати, що, якщо бачити дощ, означає, що земля, ймовірно, волога, і продовжувати міркувати, що спринклер повинен бути з землі мокре ?! Звичайно, ні. Ви стверджували, що земля мокра через дощу - не можете шукати додаткових причин!

Якщо ви спостерігаєте за вологим грунтом, звичайно ситуація змінюється. Тепер, можливо, ви зможете міркувати від однієї причини до іншої, як пояснює Франк.


4

Давайте на хвилину забудемо про X і розглянемо просто коллайдер B, C і D. Причиною того, що v-структура може перекрити шлях між B і D, полягає в тому, що, як правило, у вас є дві незалежні випадкові величини (B і Г), які впливають на один і той же результат (С), то знаючи результат, можна зробити висновки про взаємозв'язок між випадковими змінними, таким чином, забезпечуючи потік інформації.

P(B|D)P(B)P(D|Б)П(D)). Отже, знаючи, що газон вологий, розблокує шлях і робить B і D залежними.

Щоб краще зрозуміти це, може бути корисним ознайомитися з Парадоксом Берксона , який описує ту саму ситуацію.


1) У мене є труднощі з розумінням, щоб зрозуміти, що є незалежною причиною, перш ніж визначати щось про D-розділення. Багато авторів визначають D-поділ, використовуючи інтуїтивні причинно-наслідкові зв'язки. Я намагаюся побудувати систему міркувань на основі того, що я читаю з різних джерел та на основі моїх інтуїцій, щоб я міг змиритися з цією теоремою. Це так: "Якщо не спостерігається жодна змінна, окрім X, то знання про X можуть впливати на наслідки X (усі нащадки), на прямі чи непрямі причини X (предків) та на всі інші наслідки причин X".
Ufuk Can Bicici

2) Я обґрунтовую цю думку так: А) X може впливати на її прямі та непрямі ефекти, очевидно, оскільки різні значення X породжуватимуть різні причини. Б) Х може впливати на його прямі та непрямі причини, оскільки, якщо ми спостерігаємо ефект, ми можемо отримати нову інформацію про причини при діагностичному підході. C) X впливає на інші наслідки (виключаючи себе) всіх його прямих і непрямих причин, оскільки знання про X змінили наші переконання про ці причини, що, в свою чергу, впливає на всі наслідки. Я намагаюся інтерпретувати такі каузальні байєсівські мережі з цією схемою. Це правильно для початку?
Ufuk Can Bicici

3) Наче я намагаюся сформувати інтуїтивно зрозумілу модель "Потік інформації", щоб зрозуміти поведінку змінних незалежних залежностей. За цією схемою я не бачу, що таке незалежна причина, і саме тут я застряг. Ясна річ я щось пропускаю, або я можу повністю помилитися з цією думкою.
Ufuk Can Bicici

Я думаю, що моя оригінальна відповідь була дещо оманливою, тому що я називав B і D як "причини" (виправлено зараз). Інформаційний потік - це поняття, яке пов'язане зі спостереженнями, а не причинними втручаннями. Як відомо, дві випадкові величини незалежні, якщо спостереження за однією не дає ніякої інформації про другу. Ваші твердження, здається, суперечать спостереженню та умовиводу. Спостереження за X дозволяє нам коригувати умовиводи батьків (твердження А) та його прямі причини, але якщо v-структура блокує шлях, то ми не можемо коригувати умовивід непрямих причин з описаних вище причин.
FrankD

1

Ну, до цього моменту для мене все нормально, оскільки потік інформації відбувається відповідно до інтуїтивно зрозумілих причинно-наслідкових зв’язків. Але я не відчуваю особливої ​​поведінки так званих "V-структур" або "Колайдерів" у цій схемі.

Тоді тверда гайка для розтріскування - це v-структура. Я хотів би проілюструвати різницю між ймовірністю змінної S, що обумовлюється лише спостереженням ефекту, та впливом спостереження іншої змінної D, незалежної від S у тій же ситуації, використовуючи вигаданий приклад.

Скажімо, хтось проходить курс, скажімо, лінійна алгебра. Якщо він може здати, це в основному залежить від складності іспиту. Позначимо подію проходження курсу через P, пропустивши як 1, так і 0; і складність іспиту як D, складна як 1 і легка як 0. І щось дурниця також може вплинути на його результативність або результат, скажімо, особливість трапляється, і йому буде промиватися мозок машиною, а потім вирішить не робити скласти іспит. Позначимо цю подію через S, а її ймовірність дорівнює 0,0001. Це здається неможливим, але за визначенням його шанс не повинен дорівнювати нулю.

Отже, ми маємо графік форми v-структури зараз:

 D   S
  | |
 \| |/ 
   P  

П(¬П|S)=0,999999П(П|S)=0,000001

| d0   | d1      |      
|:-----|--------:|   
| 0.5  | 0.5     |  

| s0     | s1      |      
|:-------|--------:|   
| 0.9999 | 0.0001  |

| S     | D    | P(p0|S,D) | P(p1|S,D) |  
|:------|-----:|----------:|----------:|
|s0     | d0   |   0.20    |   0.80    |
|s0     | d1   |   0.90    |   0.10    |
|s1     | d0   |   0.999999|   0.000001|
|s1     | d1   |   0.999999|   0.000001| 

П(S|П)П(S|П,D)

1) Якщо ми не знаємо результату, ми можемо обчислити ймовірність виникнення сингулярності з урахуванням курсу.

П(S|¬D)=П(S,П|¬D)+П(S,¬П|¬D)=П(S=1,П=1,D=0)П(D=0)+П(S=1,П=0,D=0)П(D=0)=П(S=1)П(D=0|S=1)П(П=1|D=0,S=1)П(D=0)+П(S=1)П(D=0|S=1)П(П=0|D=0,S=1)П(D=0)=П(S=1)П(D=0|S=1)П(D=0)=П(S=1)П(D=0)П(D=0)=П(S=1)=0,0001

Як ви бачите вище, це не має значення, складений іспит чи ні. Що приходить, так і має прийти. Це можна розглядати як граничну ймовірність над P.

І ми також можемо розробити ймовірність того, що сингулярність стане, враховуючи, що студент не здає іспит:

П(S,|¬П)=П(S,¬П)П(¬П)=П(S,¬p,D)+П(S,¬П,¬D)П(¬П)=П(¬П|S,D)П(S)П(D)+П(¬П|S,¬D)П(S)П(¬D)S,DП(¬П|S,D)П(S)П(D)=0.0001818

Знаючи, що хлопець не здає іспит, ми можемо здогадатися, що він може промити мозок машиною - це 0,0001818, що трохи більше, ніж коли ми цього не знаємо.

2) Але що робити, якщо ми знаємо, що хлопець не склав іспит, а іспит легко?

P(S,|¬P,¬D)=P(S=1,P=0,D=0)P(P=0,D=0)=P(P=0|S=1,D=0)P(S=1)П(D=0)П(П=0|S=1,D=0)П(S=1)П(D=0)+П(П=0|S=0,D=0)П(S=0)П(D=0)=0,999999×0,0001×0,50,2×0,9999×0,5+0,999999×0,0001×0,5=0,0004998

Ось і ось, зміна набагато більша, ніж ми просто знаємо, що він не має іспиту. Тоді ми це бачимоП(S|П)П(S|П,D) ми можемо зробити висновок про це SD|ПЯ(П(П,S,D)) що означає, що D може впливати на S через P.

Нехай це детальне виведення буде hlep.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.