Чому оптимізувати суміш Гаусса безпосередньо обчислювально важко?


18

Розглянемо вірогідність зрубу суміші гауссів:

l(Sn;θ)=t=1nlogf(x(t)|θ)=t=1nlog{i=1kpif(x(t)|μ(i),σi2)}

Мені було цікаво, чому обчислювально важко було максимізувати це рівняння безпосередньо? Я шукав або чітку тверду інтуїцію щодо того, чому повинно бути очевидним, що його важке, чи, можливо, більш жорстке пояснення, чому це важко. Чи ця проблема не є повною чи просто ми ще не знаємо, як її вирішити? Чи це причина, що ми вдаємося використовувати алгоритм ЕМ ( очікування-максимізація )?


Позначення:

Sn = дані про навчання.

x(t) = точка даних.

θ = набір параметрів, що визначають Гаусса, їхні засоби, стандартні відхилення та ймовірність формування точки з кожного кластеру / класу / Гаусса.

pi = ймовірність формування точки з кластера / класу / Гаусса i.

Відповіді:


14

По-перше, GMM - це особливий алгоритм кластеризації, де ви намагаєтеся знайти оптимальне маркування своїх спостережень. Маючи k можливих занять, це означає, що є k n можливих міток ваших даних про навчання. Це стає вже величезним для помірних значень k і n .нккнкн

По-друге, функціонал, який ви намагаєтеся мінімізувати, не є опуклим, а разом із розміром вашої проблеми робить це дуже важким. Я знаю лише, що k-засоби (GMM можна розглядати як м'яку версію kmeans) є NP-важким. Але я не знаю, чи це було доведено і для ГММ.

Щоб побачити, що проблема не є опуклою, розгляньте одновимірний випадок: і переконайтеся, що ви не можете гарантувати, що d 2 L

L=log(e(x/σ1)2+e(x/σ2)2)
d2Ldx2>0 для всіх x.

Проблема, що не є опуклою, означає, що ви можете застрягти в локальних мінімумах. Загалом, у вас немає чітких гарантій у випуклій оптимізації, а пошук рішення також набагато складніше.


3
Щодо другого пункту: k-засоби можна розглядати як особливий випадок ГММ (точніше, граничний випадок, коли відхилення приймаються до нуля). Якщо ми можемо зменшити k-засоби до придатності GMM, це також повинно бути важкою проблемою для NP.
Лукас

1
@Lucas: Ось перехресне підтверджене посилання на ваше зауваження.
Сіань

7

На додаток до пунктів juampa, дозвольте мені повідомити про ці труднощі:

  • Функція не обмежена, тому істинний максимум + і відповідає ц ( я ) = х 1 (наприклад) і σ я = 0 . Тому справжній максимізатор повинен закінчити це рішення, яке не є корисним для оцінки.л(θ|Sн)+мк^(i)=х1σ^i=0
  • Навіть не враховуючи доданків при розкладанні добутку сум як суму добутків в l ( θ | S n ) , функція, яка має бути максимально використана в θ, є сильно мультимодальною (крім того, що не є опуклою) звідси виклик чисельним методам. EM визнає труднощі шляхом переходу до локального режиму або точки сідла та вимагає декількох запусків. Як показано накнл(θ|Sн)θзображення нижче

взяті з моєї книги .

Додаткове зауваження: без виклику алгоритму ЕМ можна використовувати стандартний алгоритм оптимізації (як Ньютон-Рафсон) один параметр, тобто ітерацію

  • θ1'=аргмаксθ1л(θ|Sн)
  • θ2'=аргмаксθ2л(θ1',θ-1|Sн)
  • ...
  • θv'=аргмаксθvл(θ-v',θv|Sн)

vл(θ|Sн)


Гаразд, L не обмежений, якщо дисперсія дорівнює 0. Але якщо ми виключимо їх з можливих параметрів (тому ми припускаємо всю дисперсію> 0), L не повинен бути настільки високим, коли нескінченно мала вибрана дисперсія (через інші точки). Я правий? Тоді для цього можливого набору параметрів L буде обмежено, і це означає, що алгоритм ЕМ зближується (збільшуючи обмежену послідовність).
ахстат

@ahstat: якщо припустити, що відхилення є суто позитивними, це не заважає ЕМ перейти до виродженого розчину, якщо його почати досить близько.
Сіань
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.