Відповіді:
Від:
Сю Л і Йордан МІ (1996). Про властивості конвергенції алгоритму Е. М. для гауссових сумішей . Нейрові обчислення 2: 129-151.
Анотація:
Ми показуємо, що етап ЕМ в просторі параметрів отримується з градієнта через матрицю проекції P, і ми надаємо явне вираження для матриці.
Сторінка 2
Зокрема, ми показуємо, що етап ЕМ можна отримати, попередньо помноживши градієнт на позитивну матричну матрицю. Ми надаємо явний вираз для матриці ...
Сторінка 3
Тобто алгоритм ЕМ можна розглядати як алгоритм сходження мінливого градієнта зі змінною метрикою ...
Це означає, що в роботі передбачені явні перетворення алгоритму ЕМ на градієнтне сходження, Ньютон, квазі-Ньютон.
Існують і інші методи пошуку максимальної оцінки ймовірності, такі як спуск градієнта, спряжений градієнт або варіації методу Гаусса – Ньютона. На відміну від ЕМ, такі методи, як правило, вимагають оцінки першої та / або другої похідних функції ймовірності.
Ні, вони не рівноцінні. Зокрема, конвергенція ЕМ значно повільніше.
Якщо вас цікавить оптимізація точки зору на ЕМ, в цій роботі ви побачите, що алгоритм ЕМ - це окремий випадок більш широкого класу алгоритмів (алгоритмів проксимальних точок).