Чим відрізняється ЕМ від градієнтного сходження?


28

Яка різниця між алгоритмами ЕМ (Максималізація очікування) та Градієнтним підйомом (або спуском)? Чи є якась умова, за якої вони є рівнозначними?

Відповіді:


21

Від:

Сю Л і Йордан МІ (1996). Про властивості конвергенції алгоритму Е. М. для гауссових сумішей . Нейрові обчислення 2: 129-151.

Анотація:

Ми показуємо, що етап ЕМ в просторі параметрів отримується з градієнта через матрицю проекції P, і ми надаємо явне вираження для матриці.

Сторінка 2

Зокрема, ми показуємо, що етап ЕМ можна отримати, попередньо помноживши градієнт на позитивну матричну матрицю. Ми надаємо явний вираз для матриці ...

Сторінка 3

Тобто алгоритм ЕМ можна розглядати як алгоритм сходження мінливого градієнта зі змінною метрикою ...

Це означає, що в роботі передбачені явні перетворення алгоритму ЕМ на градієнтне сходження, Ньютон, квазі-Ньютон.

З вікіпедії

Існують і інші методи пошуку максимальної оцінки ймовірності, такі як спуск градієнта, спряжений градієнт або варіації методу Гаусса – Ньютона. На відміну від ЕМ, такі методи, як правило, вимагають оцінки першої та / або другої похідних функції ймовірності.


5
Ця відповідь, схоже, натякає, що ЕМ та градієнтний спуск - це в основному той самий алгоритм, з перетвореннями, доступними для переходу з одного алгоритму на інший. Це, безумовно, не відповідає дійсності, і сильно залежить від генеративної моделі, яка береться до уваги. У цитованому документі зроблено лише висновки для моделей суміші Гаусса (які є відносно простими генеративними моделями), і це правильно. На моєму (правда, обмеженому) досвіді, коли модель дуже нелінійна і важлива роль прихованих змінних, ЕМ - єдиний спосіб отримати правильні правила оновлення.
синій

9

Ні, вони не рівноцінні. Зокрема, конвергенція ЕМ значно повільніше.

Якщо вас цікавить оптимізація точки зору на ЕМ, в цій роботі ви побачите, що алгоритм ЕМ - це окремий випадок більш широкого класу алгоритмів (алгоритмів проксимальних точок).


2
Або для подібної ідеї, Hinton and Neal (1998)
спільнопріоритет

2
"Зближення ЕМ значно повільніше"; це недостатньо визначено, і, звичайно, не відповідає дійсності. Алгоритми ЕМ - це цілий клас алгоритмів. Для багатьох завдань, певний EM алгоритм стан техніки.
Кліф АВ

@CliffAB, будь ласка, не соромтеся детальніше про це сказати, я хотів би прочитати ваші аргументи - коли я читав цю відповідь протягом 4 років, я розумію, що не відповів би на це сьогодні. З того часу я виявив, що в багатьох випадках ЕМ - це градієнтне сходження з параметром "швидкість навчання" залежно від поточної точки ... (я можу через деякий час відредагувати цю відповідь, щоб вказати результати сортування)
Елвіс

"Повільна конвергенція" може бути визначена в терміні конвергенції. Швидкість конвергенції підйому градієнта буде залежати від "швидкості навчання", яку непросто вибрати, що ускладнює сходження градієнта у багатьох випадках. Однак у мене все ще є відчуття, що хоча ЕМ може бути в деяких випадках єдиним здійсненним алгоритмом (похідні ймовірності або самій ймовірності важко обчислити), швидкість його конвергенції є низькою, порівняно з методом, що нагадує Ньютон.
Елвіс

"Алгоритм" ЕМ - це справді цілий клас алгоритмів; та, в якій оригінальну цільову функцію важко оптимізувати, але якби була відома якась інша змінна, рішення було б набагато простіше (як правило, у закритому вигляді). Основний контур - це заповнення очікуваної змінної, що залежить від поточних значень інших параметрів, а потім оновлення параметрів на основі очікуваного значення змінної. Показано, що швидкість сходження алгоритму залежить від того, наскільки інформативними є введені дані; чим "інформативнішими" є відсутні дані, тим повільніше конвергенція.
Кліф АВ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.