Я прочитав пару пояснень алгоритму ЕМ (наприклад, з розпізнавання шаблонів Бішопа та машинного навчання та з першого курсу з машинного навчання Роджера та Героламі). Виведення ЕМ нормально, я це розумію. Я також розумію, чому алгоритм щось прикриває: на кожному кроці ми вдосконалюємо результат і ймовірність обмежується 1,0, тому, використовуючи простий факт (якщо функція збільшується і обмежується, то вона конвергується), ми знаємо, що алгоритм конвергується в якесь рішення.
Однак, як ми знаємо, що це локальний мінімум? На кожному кроці ми розглядаємо лише одну координату (латентну змінну або параметри), тому ми можемо щось пропустити, наприклад, що локальний мінімум вимагає переміщення обох координат одразу.
Це, на мій погляд, схоже на проблему, що стосується загального класу алгоритмів сходження на гірку, яким ЕМ є примірником. Отже, для загального алгоритму сходження на гірку ми маємо цю задачу для функції f (x, y) = x * y. Якщо ми почнемо з (0, 0) точки, то лише розглядаючи обидва напрямки відразу, ми можемо рухатись вгору від значення 0.