Приховані моделі Маркова та алгоритм максимізації очікування


10

Чи може хтось уточнити, наскільки приховані моделі Маркова пов'язані з максимізацією очікування? Я пройшов багато посилань, але не міг придумати чіткого погляду.

Дякую!

Відповіді:


12

Алгоритм ЕМ (максимізація очікування) - це загальний алгоритм для оптимізації функції ймовірності у випадках, коли модель задана ймовірнісно з точки зору спостережуваного та неспостережуваного (латентного) компонента. HMM (приховані моделі Маркова) - це моделі такої форми, оскільки вони мають незастережений компонент, приховані стани, а фактичні спостереження часто називають викидами в термінології HMM. Отже, НММ утворюють клас моделей, для яких алгоритм ЕМ може бути корисним.

У генералі, якщо модель складається з двох компонентів , для яких ми вважаємо, що приймаємо значення у кінцевому просторі для простоти, а якщо ймовірнісна специфікація моделі складається із ймовірностей спільної точки , параметрезованих , то ймовірність того, при спостереженні тільки є (X,Y)pθ(x,y)θX=x

Lx(θ)=ypθ(x,y).
Хоча сума виглядає невинна, але це не так. Для HMM сума буде перевищувати всі можливі переходи між прихованими станами, що швидко стає грізним числом, коли довжина спостережуваної послідовності зростає. На щастя, існують алгоритми HMM (вперед-назад) для швидкого обчислення ймовірності, і ймовірність тоді, в принципі, може бути включена до будь-якого алгоритму оптимізації загального призначення для оцінки максимальної ймовірності . Альтернатива - EM-алгоритм. Це алгоритм, який ітераційно чергуєтьсяθ
  • Е-крок , який представляє собою обчислення умовного очікування з урахуванням спостережуваного в відповідно з поточною оцінкоюxθ
  • М-крок , який є максимізація

EM-алгоритм має найбільш сенс, якщо два етапи, описані вище, можуть бути здійснені обчислювально ефективним способом, наприклад, коли у нас є вирази закритої форми для умовного очікування та максимізації.

Історично склалося, що загальний ЕМ-алгоритм приписується Демпстеру, Лаарду та Рубіну , які довели у своєму документі 1977 року, серед іншого, що алгоритм призводить до послідовності параметрів з монотонно зростаючими значеннями ймовірності. Вони також ввели термін "EM-алгоритм". Цікаво, що EM-алгоритм для HMM був описаний вже в 1970 році Baum et al. , а також його часто називають алгоритмом Баума-Велча в літературі HMM (я не знаю точно, що робив Уелч ...).


3
Велч винайшов те, що зараз називається алгоритмом Баума-Велча (він називає його "легкою частиною"); Баум математично доводить, що алгоритм працює ("важка частина"). Докладні відомості див. У курсах.cs.tamu.edu/rgutier/cpsc689_s07/welch2003baumWelch.pdf .
Михайло Коробов

@MikhailKorobov, дякую за цю інформативну довідку.
NRH

2

Максимізація очікувань - це ітеративний метод, який використовується для статистичного висновку на різних різних генеративних статистичних моделях, наприклад, на суміші гауссів та інших моделей байєсівської мережі. Єдиний зв'язок полягає в тому, що МММ - це також байєсівські мережі. Але, мабуть, не використовуватимуть ЕМ для НММ, оскільки існує точний алгоритм для висновку в НММ, який називається алгоритмом Вітербі. Тож хоч можна було б використовувати ЕМ для здійснення висновку на HMM, ви цього не зробите, тому що немає підстав для цього.


4
Це не зовсім точно, оскільки ви змішуєте два різні види "умовиводу". ЕМ - алгоритм оцінки невідомих параметрів, Вітербі - алгоритм обчислення найбільш ймовірної послідовності прихованих станів. Дійсно, ви використовуєте ЕМ для НММ для оцінки параметрів. У своїй відповіді я детальніше розповів про EM-алгоритм з історичними посиланнями, що пояснюють взаємозв'язок між HMM та EM.
NRH

0

У HMM ми намагаємось оцінити в основному три параметри:

  1. Початкові ймовірності стану. Це вектор з елементами , де - кількість станів.KK

  2. Матриця переходу. Це квадратна матриця розміру .K×K

  3. Умовні ймовірності спостереження за предметом, обумовленими деяким станом. Це також матриця розміру , де - кількість спостережень.K×NN

Тепер частина ЕМ настає, коли ви намагаєтесь оцінити величини / параметри, зазначені вище. Починаючи з деякої випадкової здогадки, ймовірність спостережень оцінюється і параметри ітераційно коригуються, поки ми не отримаємо максимальну ймовірність. Отже, через HMM ми моделюємо певний процес, і для цього нам потрібно ввести деякі параметри. Для оцінки параметрів подається ЕМ.

Це дуже коротка відповідь. Реалізація ЕМ потребує ряду інших підпроблем, які потрібно вирішити за допомогою ряду методик. Для глибокого розуміння настійно рекомендується класичний підручник Rabiner.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.