ЕМ, чи є інтуїтивне пояснення?


16

Процедура ЕМ видається непосвяченим як більш-менш чорна магія. Оцініть параметри HMM (наприклад) за допомогою контрольованих даних. Потім розшифруйте нетегіровані дані, використовуючи вперед-назад для "підрахунку" події так, як ніби дані позначені, більш-менш. Чому це робить модель кращою? Я щось знаю про математику, але я все ще бажаю якоїсь ментальної картини.


Я не впевнений, але думаю, що це можливо інтерпретувати як процедуру оптимізації стокастичного градієнта. Я подумаю про це ...
Робін Жирард

Відповіді:


12

Для того, щоб зберегти деякий текст, викличте спостережувані дані , відсутні дані Z (наприклад, приховані стани HMM) та вектор параметрів, який ми намагаємось знайти QXZQ (наприклад, ймовірності переходу / випромінювання).

Інтуїтивне пояснення полягає в тому, що ми в основному обманюємо, робимо вигляд, що мить знаємо тому ми можемо знайти умовний розподіл Z, що, в свою чергу, дозволяє нам знайти MLE для Q (ігноруючи на даний момент факт, що ми в основному робимо круговий аргумент), то визнайте, що ми обдурили, введіть нове, краще значення для Q , і робіть це заново, поки нам більше не доведеться обманювати.QQQ

Трохи технічніше, роблячи вигляд, що ми знаємо реальне значення , ми можемо зробити вигляд, що знаємо щось про умовний розподіл Z | { X , Q } , що дозволяє нам покращити нашу оцінку для Q , для якої ми зараз робимо вигляд, що це справжнє значення для Q, тому ми можемо зробити вигляд, що знаємо щось про умовний розподіл Z | { X , Q } , що дозволяє нам покращити нашу оцінку щодо Q , яка ... тощо.QZ|{X,Q}QQZ|{X,Q}Q

Навіть технічно, якби ми знали , ми могли б максимізувати журнал ( f ( Q | X , Z ) ) і мати правильну відповідь. Проблема полягає в тому, що ми не знаємо Z , і будь-яка оцінка для Q повинна залежати від цього. Але якщо ми хочемо , щоб знайти найкращу оцінку (або розподіл) для Z , то ми повинні знати , X і Q . Ми застрягли в ситуації з куркою і яйцем, якщо хочемо аналітичного унікального максималізатора.Zlog(f(Q|X,Z))ZQZXQ

Наше «вихід» полягає в тому, що - для будь-якої оцінки (називаємо це Q n ) - ми можемо знайти розподіл Z | { Q n , X } , і таким чином ми можемо максимально збільшити очікувані спільні ймовірності Q | { X , Z } відносно умовного розподілу Z | { Q n , X } . Цей умовний розподіл в основному говорить нам, як Z залежить від поточного значення заданого QQQnZ|{Qn,X}Q|{X,Z}Z|{Qn,X}ZQX, і дає нам знати, як змінити щоб збільшити нашу ймовірність як для Q, так і для Z одночасно для певного значення Q (яке ми назвали Q n ). Після того, як ми вибрали новий Q n + 1 , ми маємо інший умовний розподіл для Z | { Q n + 1 , X } і так доведеться перерахувати очікування.QQZQQnQn+1Z|{Qn+1,X}

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.