Співвідношення між варіаційними Байесом та ЕМ


26

Я десь прочитав, що метод Варіаційного Байєса - це узагальнення алгоритму ЕМ. Дійсно, ітеративні частини алгоритмів дуже схожі. Щоб перевірити, чи алгоритм ЕМ є спеціальною версією Variational Bayes, я спробував наступне:

  1. Y - це дані, - це збір прихованих змінних, а - параметри. У варіаційних Бейсах ми можемо зробити наближення таким, що . Де s - простіші, простежувані розподіли.XΘP(X,Θ|Y)QX(X)QΘ(Θ)Q

  2. Оскільки алгоритм ЕМ знаходить оцінку точки MAP, я подумав, що варіаційний Бейс може сходитися до ЕМ, якщо я використовую функцію Дельта, таку: . - перша оцінка параметрів, як це зазвичай робиться в ЕМ.QΘ1(Θ)=δΘ1(Θ)Θ1

  3. Коли , що мінімізує розбіжність KL, знаходимо за формулою Вищенаведена формула спрощується до , цей крок виявляється еквівалентом кроку очікування алгоритму ЕМ!QΘ1(Θ)=δΘ1(Θ)QX1(X)

    QX1(X)=exp(EδΘ1[lnP(X,Y,Θ)])exp(EδΘ1[lnP(X,Y,Θ)])dX
    QX1(X)=P(X|Θ1,Y)

Але я не можу отримати крок максимізації як продовження цього. На наступному кроці нам потрібно обчислити і відповідно до правила варіаційної ітерації Баєса це:QΘ2(Θ)

QΘ2(Θ)=exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])dΘ

Чи алгоритми VB та EM насправді пов'язані таким чином? Як ми можемо визначити ЕМ як особливий випадок Варіаційного Байєса, чи правда мій підхід?


Де ви читали, що алгоритм ЕМ знаходить оцінку MAP? Зв'язок між варіаційним висновком та ЕМ стане зрозумілим, як тільки ви зрозумієте погляд на ЕМ, представлений у цій роботі Neal & Hinton (1998) . Дивіться також мою відповідь тут .
Лукас

Я думаю, що я вивчив алгоритм ЕМ так само, як це пояснює цей документ, він розглядається як нижня межа максимальної задачі. Використовуючи рівність Йенсена та обчислення варіацій, виявляється, що на етапі очікування - це розподіл, який максимізує нижню межу для і на кроці максимізації знаходимо , що є максимумом на нижній межі. Отже, це схоже на Варіаційний Бейс. (І це сходиться до локального максимуму граничного заднього, звідси оцінка ПДЧ)P(X|Θt,Y)ΘtΘt+1=argmaxΘ<lnP(X,Y,Θ)>P(X|Θt,Y)
Ufuk Can Bicici

1
Вибачте, я недостатньо уважно прочитав ваше запитання. Я вважаю, що ваш крок максимізації для обчислення справедливий лише в тому випадку, якщо ви дозволяєте будь-який розподіл, тобто якщо ви робите лише припущення щодо факторизації. Але ви додатково припустили, що є розподілом дельти. Спробуйте явно максимізувати нижню межу відносно , параметра . QΘ2QΘ2Θ2QΘ2(Θ)=δΘ2(Θ)
Лукас

Я знайшов на сторінці 21 презентації cs.cmu.edu/~tom/10-702/Zoubin-702.pdf порівняння ЕМ та ВБ показано аналогічно за допомогою функції Дірака. Але як VB зводиться до ЕМ, не дано.
Ufuk Can Bicici

Відповіді:


20

Ваш підхід правильний. ЕМ еквівалентний VB за обмеженням, що наближена posterior для обмежена точковою масою. (Це згадується без доказів на сторінці 337 Баєсівського аналізу даних .) Нехай буде невідомим місцем цієї маси точки: VB мінімізуйте наступні KL-розбіжності: Мінімум над дає Е-крок ЕМ, а мінімальний понад дає М-крок ЕМ. ΘΘ

QΘ(Θ)=δ(ΘΘ)
KL(Q||P)=QX(X)QΘ(Θ)lnQX(X)QΘ(Θ)P(X,Y,Θ)dXdΘ=QX(X)lnQX(X)QΘ(Θ)P(X,Y,Θ)dX
QX(X)Θ

Звичайно, якби ви насправді оцінювали розбіжність KL, це було б нескінченно. Але це не проблема, якщо ви вважаєте дельта функцію обмеженням.


Технічно максимізація wrt відповідає M-кроку MAP-EM (з попереднім ). - розділ 3.1 статті VBEMEQx[lnP(X,Y,Θ)]=EQx[lnP(X,Y|Θ)]+lnP(Θ)ΘP(Θ)
Ібо Ян
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.