Чому алгоритм максимізації очікування гарантовано збігається з локальним оптимумом?


24

Я прочитав пару пояснень алгоритму ЕМ (наприклад, з розпізнавання шаблонів Бішопа та машинного навчання та з першого курсу з машинного навчання Роджера та Героламі). Виведення ЕМ нормально, я це розумію. Я також розумію, чому алгоритм щось прикриває: на кожному кроці ми вдосконалюємо результат і ймовірність обмежується 1,0, тому, використовуючи простий факт (якщо функція збільшується і обмежується, то вона конвергується), ми знаємо, що алгоритм конвергується в якесь рішення.

Однак, як ми знаємо, що це локальний мінімум? На кожному кроці ми розглядаємо лише одну координату (латентну змінну або параметри), тому ми можемо щось пропустити, наприклад, що локальний мінімум вимагає переміщення обох координат одразу.

Це, на мій погляд, схоже на проблему, що стосується загального класу алгоритмів сходження на гірку, яким ЕМ є примірником. Отже, для загального алгоритму сходження на гірку ми маємо цю задачу для функції f (x, y) = x * y. Якщо ми почнемо з (0, 0) точки, то лише розглядаючи обидва напрямки відразу, ми можемо рухатись вгору від значення 0.


3
Ймовірність обмежена лише для фіксованих дисперсій. Тобто, у біноміальній ситуації дисперсія дорівнює ; або в гауссовій ситуації, якщо дисперсія вважається відомою. Якщо дисперсія невідома і повинна бути оцінена, ймовірність не обмежена. Також в алгоритмі ЕМ є загальне розділення пропущених та параметрів, принаймні, для статистиків-частістів, але поверхні дійсно можуть мати сідла. p(1p)
Стаск

@Stask Я не впевнений, що вірогідність взагалі обмежена навіть із фіксованими відхиленнями. Ви обмежуєтесь якоюсь конкретною сім'єю?
Glen_b -Встановіть Моніку

Відповіді:


27

ЕМ не гарантується, що вона збільшиться до локального мінімуму. Гарантоване лише зближення до точки з нульовим градієнтом щодо параметрів. Так він справді може застрягнути в сідлових точках.


1
Приклади див . Тут , с. 20 і 38 , стор. 85 тут - спробуйте "точку сідла" в читальнику Amazon.
Стаск

13

Перш за все, можливо, що ЕМ переходить до локальної хв , локальної максимуму або точки сідла функції ймовірності. Точніше, як вказував Том Мінка , ЕМ гарантовано сходиться до точки з нульовим градієнтом .

Я можу придумати два способи побачити це; перший погляд - це чиста інтуїція, а другий погляд - ескіз формального доказу. Спочатку я дуже коротко поясню, як працює ЕМ:

Максимізація очікувань (ЕМ) - це послідовна пов'язана техніка оптимізації, де в ітерації спочатку будуємо (нижню) зв'язану на ймовірності функції а потім максимізуємо пов'язану для отримання нового рішення , і продовжуйте робити це, поки нове рішення не зміниться.b t ( θ ) L ( θ ) θ t = arg max θ b t ( θ )tbt(θ)L(θ)θt=argmaxθbt(θ)

Очікування Максимізація як сходження градієнта

У кожній ітерації ЕМ вимагає, щоб зв'язаний до функції ймовірності при розв'язанні попередньої ітерації, тобто що означає, що їх градієнти теж однакові; тобто . Отже, ЕМ принаймні настільки ж хороший, як і градієнтне підйом, тому що принаймні настільки ж хороший, як . Іншими словами:b t L θ t - 1 g = b t ( θ t - 1 ) = L ( θ t - 1 ) θ t θ t - 1 + η gtbtLθt1g=bt(θt1)=L(θt1)θtθt1+ηg

якщо ЕМ сходиться до то є також конвергентною точкою для сходження градієнта, і ЕМ задовольняє будь-яке властивість, поділене між рішеннями сходження градієнта (включаючи нульове значення градієнта).θ θθ

Ескіз формального доказу

Можна показати, що розрив між межами та функцією ймовірності сходить до нуля; тобто Можна довести, що градієнт пов'язаної також сходиться до градієнта функції ймовірності; тобто: Через і і що межі, використані в ЕМ, є диференційованими, і що , у нас є і, отже, .

(1)limтL(θт)-бт(θт)=0.
(2)limтL(θт)=бт(θт).
(1)(2)θт=аргмаксθбт(θ)бт(θт)=0limтL(θт)=0
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.