Чому Максимізація очікування важлива для моделей сумішей?

Існує багато літератури, що підкреслюють метод максимізації очікування на моделях сумішей (суміш Гауссова, модель прихованого Маркова тощо).

Чому ЕМ важлива? ЕМ - це лише спосіб оптимізації і не використовується широко як градієнтний метод (метод градієнта пристойний або метод ньютона / квазі-ньютона) або інший метод без градієнтів, обговорений ТУТ . Крім того, у ЕМ ще є проблема локальних мінімумів.

Це тому, що процес інтуїтивно зрозумілий і його можна легко перетворити на код? Або які інші причини?

— Хайтао Ду
джерело

В принципі, і ЕМ, і стандартний підхід до оптимізації можуть працювати для підгонки сумішей. Як і ЕМ, розпуклі оптимізатори вирішаться до локального оптимуму. Але існують різноманітні алгоритми оптимізації для пошуку кращих рішень за наявності декількох локальних оптимів. Наскільки мені відомо, алгоритм з найкращою швидкістю конвергенції буде залежати від проблеми.

Одна перевага ЕМ полягає в тому, що він, природно, виробляє дійсні параметри розподілу суміші на кожній ітерації. На противагу цьому, стандартні алгоритми оптимізації потребують обмеження. Наприклад, скажіть, що ви підходите до моделі суміші Гаусса. Стандартний нелінійний підхід до програмування вимагає, щоб обмежуючі матриці коваріації були позитивними напівдефінітами, а обмежувальні ваги компонентів суміші були неотрицательними і дорівнювали одиниці.

Щоб досягти хорошої продуктивності при вирішенні завдань з високими розмірами, нелінійний програміст розв'язувача зазвичай повинен використовувати градієнт. Отже, вам доведеться або отримати градієнт, або обчислити його з автоматичною диференціацією. Градієнти також потрібні для функцій обмеження, якщо вони не мають стандартної форми. Метод Ньютона та пов'язані з ним підходи (наприклад, методи регіону довіри) потребують і гессіанців. Методи кінцевого розмежування або похідні можуть бути використані, якщо градієнт недоступний, але продуктивність має тенденцію до масштабного масштабу в міру збільшення кількості параметрів. Навпаки, ЕМ не вимагає градієнта.

ЕМ концептуально інтуїтивно зрозуміла, що є чудовою чеснотою. Це часто стосується і стандартних підходів до оптимізації. Існує багато деталей реалізації, але загальна концепція проста. Часто вдається використовувати стандартні рішення для оптимізації, які абстрагують ці деталі далеко під капотом. У цих випадках користувач повинен просто поставити цільову функцію, обмеження та градієнти, і мати достатньо робочих знань, щоб вибрати вирішувач, який добре підходить для проблеми. Але спеціалізовані знання, безумовно, потрібні, якщо вони доходять до того, коли користувачеві доводиться думати або впроваджувати деталі низького рівня алгоритму оптимізації.

Ще одна перевага алгоритму ЕМ полягає в тому, що його можна використовувати в тих випадках, коли деякі значення даних відсутні.

Також цікаво (включаючи коментарі):

— користувач20160
джерело

\sum_{i} p_{i} = 1

$\sum_i p_i = 1$

q_{i} \in R

$q_i \in \mathbb{R}$

p_{i} = \frac{\exp (q_{i})}{\sum_{j} \exp (q_{j})}

$p_i = \frac{\exp(q_i)}{\sum_j\exp(q_j)}$

C

$C$

U

$U$

C = U^{T} U

$C = U^T U$

C

$C$

U

$U$

0

$0$

Правильний, правильний, холеський розпад. Значно краще.

— користувач20160

+1 чудова відповідь! Ви могли б пояснити більше на тему: "це, природно, створює дійсні параметри розподілу суміші на кожній ітерації"? Для інших методів у нас ще є значення змінних рішень для кожної ітерації, правда?

— Haitao Du

Я думаю, що відповідь user20160 дає дуже хороше пояснення. Найважливішою причиною, яка робить методи, засновані на градієнті, непридатні тут, є обмеження для матриць коваріації, щоб бути позитивними напіввизначеними, а коефіцієнти суміші - неотрицательними і підсумовують до одиниці.

Просто хочу зазначити, що якщо обмежити матриці коваріації діагональними, то ці два обмеження можна легко виразити.

Σ = [\begin{matrix} σ_{1}^{2} \\ ⋱ \\ σ_{N}^{2} \end{matrix}]

$\Sigma = \begin{bmatrix} \sigma^2_{1} & & \\ & \ddots & \\ & & \sigma^2_{N} \end{bmatrix}$

ϕ_{k} = e^{p_{k}} / \sum_{K} e^{p_{i}}

$\phi_k=e^{p_k}/\sum_Ke^{p_i}$

Крім того, це дозволяє нам безпосередньо оптимізувати справжню ймовірність замість варіативної нижньої межі (ELBO), тим самим усуваючи потребу в прихованих змінних.

Однак навіть у таких випадках ЕМ часто виявляється кращим алгоритмом, ніж градієнт пристойний.

— dontloo
джерело