Різниця між байєсівськими мережами та процесом Маркова?


28

Чим відрізняється Байєсова мережа від процесу Маркова?

Я вважав, що розумію принципи обох, але тепер, коли мені потрібно порівняти два, я відчуваю себе втраченим. Вони означають для мене майже те саме. Звичайно, це не так.

Також вдячні посилання на інші ресурси.


Я пам’ятаю, що хтось сказав мені на цьому сайті, що байєсівські мережі не обов'язково вимагають байєсівського висновку. Їх імена походять від правління Байєса.
Тім

Відповіді:


21

Імовірнісна графічна модель (PGM) являє собою графік , формалізм для моделювання компактно розподілу спільних ймовірностей і (в) Залежність відносини на безлічі випадкових величин. PGM називається байєсівською мережею, коли основний графік спрямований, а мережа Маркова / Маркове випадкове полеколи основний графік непрямий. Взагалі кажучи, ви використовуєте перше для моделювання ймовірнісного впливу між змінними, які мають чітку спрямованість, інакше ви використовуєте останню; в обох версіях PGM, відсутність ребер у пов'язаних з ними графіках являють собою умовні незалежності в кодованих розподілах, хоча їх точна семантика відрізняється. "Марків" в "Марковій мережі" відноситься до загального поняття умовної незалежності, кодованого PGM, що набору випадкових змінних , незалежних від інших даного деякого набору "важливих" змінних (технічна назва - Марків ковдра ), тобто .xAxCxBp(xA|xB,xC)=p(xA|xB)

Марковський процес є будь-яким випадковим процесом , що задовольняє Маркова . Тут акцент робиться на сукупності (скалярних) випадкових змінних як правило, їх вважають індексованими часом, які задовольняють певний вид умовної незалежності, тобто "майбутнє не залежить від минулого з огляду на теперішній час ", грубо кажучи, . Це особливий випадок поняття "Марков", визначеного PGM: просто візьміть множину , і візьміть як будь-який підмножина і викликати попереднє твердження{Xt}X1,X2,X3,...p(xt+1|xt,xt1,...,x1)=p(xt+1|xt)A={t+1},B={t}C{t1,t2,...,1}p(xA|xB,xC)=p(xA|xB) . З цього ми бачимо, що маркова ковдра будь-якої змінної є її попередником .Xt+1Xt

Тому ви можете представити марківський процес з байєсівською мережею як лінійну ланцюг, індексовану часом (для простоти ми розглянемо лише випадок дискретного часу / стану тут; малюнок із книги PRML Єпископа): введіть тут опис зображення Цей вид байєсівської мережі відомий як динамічна байєсівська мережа . Оскільки це байєсівська мережа (отже, PGM), для ймовірнісного висновку можна застосувати стандартні алгоритми PGM (наприклад, алгоритм суми-добутку, з яких рівняння Чапмана – Колмогорова являють собою окремий випадок) та оцінки параметрів (наприклад, максимальна ймовірність, яка кипить до простого підрахунку) по ланцюгу. Прикладом цього є HMM та n-грамова модель мови.

Часто ви бачите схему із зображенням ланцюга Маркова, як цьоговведіть тут опис зображення

Це не PGM, тому що вузли - це не випадкові величини, а елементи простору стану ланцюга; ребра відповідають (ненульовим) перехідним ймовірностям між двома послідовними станами. Ви також можете вважати цей графік як опис CPT (таблиця умовної ймовірності) ланцюга PGM. Цей ланцюг Маркова лише кодує стан світу при кожній марці як єдину випадкову змінну ( Mood ); що робити, якщо ми хочемо зафіксувати інші взаємодіючі аспекти світу (наприклад, здоров'я та доходи якоїсь людини) та розглядати як вектор випадкових зміннихp(Xt|Xt1)Xt(Xt(1),...Xt(D))? Тут можуть допомогти PGM (зокрема, динамічні байєсівські мережі). Ми можемо моделювати складні розподіли для використовуючи умовну байєсівську мережу, яку зазвичай називають 2TBN (2-часовий зріз байєсівської мережі), який можна розглядати як вигадливішу версію простої ланцюгової байєсівської мережі.p(Xt(1),...Xt(D)|Xt1(1),...Xt1(D))

TL; DR : байєсівська мережа - це різновид PGM (імовірнісна графічна модель), яка використовує спрямований (ациклічний) графік для подання факторизованого розподілу ймовірностей та пов'язаної з ним умовної незалежності над набором змінних. Марковський процес - це стохастичний процес (типово його розглядають як сукупність випадкових змінних) із властивістю "майбутнє не залежне від минулого з урахуванням сучасності"; акцент робиться більше на вивченні еволюції єдиної "шаблонної" випадкової змінної протягом часу (часто як ). A (скалярний) процес Маркова визначає питому властивість умовної незалежностіXttp(xt+1|xt,xt1,...,x1)=p(xt+1|xt)і тому їх можна тривіально представити ланцюговою байєсівською мережею, тоді як динамічні байєсівські мережі можуть використовувати повну уявну силу PGM для моделювання взаємодій між декількома випадковими змінними (тобто випадковими векторами) протягом часу; велике посилання на це - книга PGM Дафни Коллер, глава 6.


17

Спочатку кілька слів про Марківські процеси. Існує чотири чіткі аромати цього звіра, залежно від простору стану (дискретний / безперервний) та змінної часу (дискретний / безперервний). Загальна ідея будь-якого Марківського процесу полягає в тому, що "з огляду на теперішнє, майбутнє не залежить від минулого".

Найпростіший процес Маркова, це дискретний і кінцевий простір і дискретний ланцюг часу Маркова. Ви можете візуалізувати його як набір вузлів, із спрямованими краями між ними. Графік може мати цикли і навіть петлі. На кожному краї ви можете записати число між 0 і 1 таким чином, що для кожного номера вузла на ребрах, що виходять з цього вузла, дорівнює 1.

Тепер уявіть собі наступний процес: ви починаєте в заданому стані A. Кожну секунду вибираєте навмання вихідний край із стану, в якому зараз перебуваєте, з ймовірністю вибору цього краю, рівного числу на цьому краї. Таким чином, ви генеруєте навмання послідовність станів.

Дуже круту візуалізацію такого процесу можна знайти тут: http://setosa.io/blog/2014/07/26/markov-chains/

Повідомлення про винос полягає в тому, що графічне зображення дискретного простору дискретного часу Марківський процес - це загальний графік, який представляє розподіл на послідовності вузлів графіка (заданий початковий вузол або початковий розподіл по вузлах).

З іншого боку, Байєсова мережа - це DAG ( Directed Acyclic Graph ), який представляє факторизацію деякого спільного розподілу ймовірностей. Зазвичай це представлення намагається врахувати умовну незалежність між деякими змінними, щоб спростити графік і зменшити кількість параметрів, необхідних для оцінки спільного розподілу ймовірностей.


3

Поки я шукав відповідь на те саме питання, я натрапив на ці відповіді. Але жодна з них не прояснює тему. Коли я знайшов якісь хороші пояснення, хотів поділитися з людьми, які думали, як я.

У книзі "Імовірнісні міркування в інтелектуальних системах: Мережі правдоподібного висновку", написаній Юдеєю Перл, глава 3: Марківські та Байєсові мережі: два графічні зображення імовірнісних знань, с.116:

Основна слабкість мереж Маркова - їх нездатність представляти індуковані та неперехідні залежності; дві незалежні змінні будуть безпосередньо з'єднані краєм, лише тому, що якась інша змінна залежить від обох. Як результат, багато корисних незалежностей залишаються непредставленими в мережі. Щоб подолати цей недолік, байєсівські мережі використовують більш насичену мову спрямованих графіків, де напрямки стрілок дозволяють нам відрізняти справжні залежності від хибних залежностей, викликаних гіпотетичними спостереженнями.


1

Марківський процес - це стохастичний процес із властивістю Марковій (коли індекс - час, властивість Маркова - особлива умовна незалежність, яка говорить про те, що теперішнє, минуле та майбутнє є незалежними.)

Байєсівська мережа - це спрямована графічна модель. (Випадкове поле Маркова - це непряма графічна модель.) Графічна модель фіксує умовну незалежність, яка може відрізнятися від властивості Марковія.

Я не знайомий з графічними моделями, але думаю, що графічну модель можна розглядати як стохастичний процес.


1

-Загальна ідея будь-якого Марківського процесу полягає в тому, що "з огляду на теперішнє, майбутнє не залежить від минулого".

-Загальна ідея будь-якого байєсівського методу полягає в тому, що "з огляду на попереднє, майбутнє не залежить від минулого", його параметри, якщо індексуватися спостереженнями, будуть слідувати Марковському процесу

ПЛЮС

"все наступне буде однаковим у тому, як я оновлюю свої переконання

  • ви даєте мені нову інформацію A, тоді ви даєте мені нову інформацію B,
  • ви даєте мені нову інформацію B, потім нову інформацію A
  • ви даєте мені A і B разом "

Тож його параметри дійсно будуть марковським процесом, індексованим часом, а не спостереженнями

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.