Документ, який я знайшов уточненням щодо максимізації очікування, - Байєсівський K-Means як алгоритм "Максимізація-очікування" (pdf) Веллінга та Куріхари.
Припустимо, у нас є ймовірнісна модель з x спостереженнями, z прихованими випадковими змінними та загальною кількістю θ параметрів. Нам дається набір даних D і змушені (вищими силами) встановлювати p ( z , θ | D ) .p(x,z,θ)xzθDp(z,θ|D)
1. Відбір проб Гіббса
Ми можемо наблизити шляхом вибірки. Вибірка Гіббса дає p ( z , θ | D ) шляхом чергування:p(z,θ|D)p(z,θ|D)
θ∼p(θ|z,D)z∼p(z|θ,D)
2. Варіаційний Байєс
Натомість ми можемо спробувати встановити розподіл і q ( z ) і мінімізувати різницю з розподілом, який ми виконуємо після p ( θ , z | D ) . Різниця між розподілами має зручну фантазійну назву, KL-розбіжність. Звести до мінімуму K L [ q ( θ ) q ( z ) | | p ( θ , z | D ) ] ми оновлюємо:q(θ)q(z)p(θ,z|D)KL[q(θ)q(z)||p(θ,z|D)]
q(θ)∝exp(E[logp(θ,z,D)]q(z))q(z)∝exp(E[logp(θ,z,D)]q(θ))
3. Очікування-Максимізація
Придумати повноцінні розподіли ймовірностей для і θ можна вважати крайніми. Чому б ми замість цього не розглянули точкову оцінку для однієї з них і не зберегли іншу приємну та нюансову. В ЕМ параметр θ встановлюється як той, який недостойний повного розподілу, і встановлюється його значення MAP (Максимум A Posteriori), θ ∗ .zθθθ∗
θ∗=argmaxθE[logp(θ,z,D)]q(z)q(z)=p(z|θ∗,D)
Тут насправді буде кращим позначенням: оператор argmax може повернути кілька значень. Але давайте не будемо вибирати. За порівнянні з варіаційним Байес ви бачите , що виправлення для журналу на ехре не змінює результат, так що не треба більше.θ∗∈argmaxlogexp
4. Максимізація-очікування
Немає підстав ставитися до як до розпещеної дитини. Ми можемо так само добре використовувати оцінки точок z ∗ для наших прихованих змінних і дати параметри θ розкіш повного розподілу.zz∗θ
z∗=argmaxzE[logp(θ,z,D)]q(θ)q(θ)=p(θ|z∗,D)
Якщо наші приховані змінні є індикаторними змінними, у нас раптом існує обчислювально дешевий метод для висновку щодо кількості кластерів. Це іншими словами: вибір моделі (або автоматичне виявлення відповідності чи уявіть собі інше фантазійне ім’я).z
5. Ітераційні умовні режими
Зрозуміло, дочірнє планування приблизного висновку полягає у використанні точкових оцінок як для параметрів так і для спостережень z .θz
θ∗=argmaxθp(θ,z∗,D)z∗=argmaxzp(θ∗,z,D)
Щоб побачити, як грає Максимізація-Очікування, я дуже рекомендую статтю. На мій погляд, сила цієї статті, однак, полягає не у застосуванні значної альтернативи, а у цьому чіткому та стислому викладі наближення.k