Чому оптимізувати суміш Гаусса безпосередньо обчислювально важко?

18

Розглянемо вірогідність зрубу суміші гауссів:

l (S_{n}; θ) = \sum_{t = 1}^{n} \log f (x^{(t)} | θ) = \sum_{t = 1}^{n} \log {\sum_{i = 1}^{k} p_{i} f (x^{(t)} | μ^{(i)}, σ_{i}^{2})}

$l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\}$

Мені було цікаво, чому обчислювально важко було максимізувати це рівняння безпосередньо? Я шукав або чітку тверду інтуїцію щодо того, чому повинно бути очевидним, що його важке, чи, можливо, більш жорстке пояснення, чому це важко. Чи ця проблема не є повною чи просто ми ще не знаємо, як її вирішити? Чи це причина, що ми вдаємося використовувати алгоритм ЕМ ( очікування-максимізація )?

Позначення:

$S_n$ = дані про навчання.

$x^{(t)}$ = точка даних.

$\theta$ = набір параметрів, що визначають Гаусса, їхні засоби, стандартні відхилення та ймовірність формування точки з кожного кластеру / класу / Гаусса.

$p_i$ = ймовірність формування точки з кластера / класу / Гаусса i.

machine-learning gaussian-mixture expectation-maximization

— Буратіно
джерело

14

По-перше, GMM - це особливий алгоритм кластеризації, де ви намагаєтеся знайти оптимальне маркування своїх спостережень. Маючи можливих занять, це означає, що є можливих міток ваших даних про навчання. Це стає вже величезним для помірних значень і . $n$ $k$ $k^n$ $k$ $n$

По-друге, функціонал, який ви намагаєтеся мінімізувати, не є опуклим, а разом із розміром вашої проблеми робить це дуже важким. Я знаю лише, що k-засоби (GMM можна розглядати як м'яку версію kmeans) є NP-важким. Але я не знаю, чи це було доведено і для ГММ.

Щоб побачити, що проблема не є опуклою, розгляньте одновимірний випадок: і переконайтеся, що ви не можете гарантувати, що

L = \log (e^{- (x / σ_{1})^{2}} + e^{- (x / σ_{2})^{2}})

$L = \log \left(e^{-({x}/{\sigma_{1}})^2} + e^{-({x}/{\sigma_{2}})^2}\right)$

\frac{d^{2} L}{d x^{2}} > 0

$\frac{d^2L}{dx^2} > 0$ для всіх x.

Проблема, що не є опуклою, означає, що ви можете застрягти в локальних мінімумах. Загалом, у вас немає чітких гарантій у випуклій оптимізації, а пошук рішення також набагато складніше.

— jpmuc
джерело

3

Щодо другого пункту: k-засоби можна розглядати як особливий випадок ГММ (точніше, граничний випадок, коли відхилення приймаються до нуля). Якщо ми можемо зменшити k-засоби до придатності GMM, це також повинно бути важкою проблемою для NP.

— Лукас

1

@Lucas: Ось перехресне підтверджене посилання на ваше зауваження.

— Сіань

7

На додаток до пунктів juampa, дозвольте мені повідомити про ці труднощі:

Функція не обмежена, тому істинний максимум і відповідає (наприклад) і . Тому справжній максимізатор повинен закінчити це рішення, яке не є корисним для оцінки. $l(\theta|S_n)$ $+\infty$ $\hat\mu^{(i)}=x_1$ $\hat\sigma_i=0$
Навіть не враховуючи доданків при розкладанні добутку сум як суму добутків в , функція, яка має бути максимально використана в є сильно мультимодальною (крім того, що не є опуклою) звідси виклик чисельним методам. EM визнає труднощі шляхом переходу до локального режиму або точки сідла та вимагає декількох запусків. Як показано на $k^n$ $l(\theta|S_n)$ $\theta$

взяті з моєї книги .

Додаткове зауваження: без виклику алгоритму ЕМ можна використовувати стандартний алгоритм оптимізації (як Ньютон-Рафсон) один параметр, тобто ітерацію

$\theta_1^\prime=\arg\max_{\theta_1} l(\theta|S_n)$
$\theta_2^\prime=\arg\max_{\theta_2} l(\theta_1^\prime,\theta_{-1}|S_n)$
...
$\theta_v^\prime=\arg\max_{\theta_v} l(\theta_{-v}^\prime,\theta_v|S_n)$

$v$ $l(\theta|S_n)$

— Сіань
джерело

Гаразд, L не обмежений, якщо дисперсія дорівнює 0. Але якщо ми виключимо їх з можливих параметрів (тому ми припускаємо всю дисперсію> 0), L не повинен бути настільки високим, коли нескінченно мала вибрана дисперсія (через інші точки). Я правий? Тоді для цього можливого набору параметрів L буде обмежено, і це означає, що алгоритм ЕМ зближується (збільшуючи обмежену послідовність).

— ахстат

@ahstat: якщо припустити, що відхилення є суто позитивними, це не заважає ЕМ перейти до виродженого розчину, якщо його почати досить близько.

— Сіань