Чому k-засоби не оптимізовані за допомогою градієнтного спуску?


14

Я знаю, що k-засоби, як правило, оптимізуються за допомогою максимізації очікування . Однак ми могли б оптимізувати його функцію втрат так само, як і будь-яку іншу!

Я знайшов деякі документи, які фактично використовують стохастичний градієнтний спуск для великомасштабних k-засобів, але не змогли отримати відповідь на моє питання.

Отже, хтось знає, чому це? Це тому, що максимізація очікування швидше конвергується ? Чи є якась особлива гарантія? Або це історична причина ?


Крок максимізації вже піднімає градієнт ймовірності (що залежить від значень, вибраних кроком очікування), правда?
Девід Дж. Харріс

@ DavidJ.Harris Я не думаю, що ОП сперечається з тим, що ЕМ поводиться так, як це робиться, але запитую, чому один метод, здається, широко використовується, а інший метод не використовується так сильно. Здається, ваш коментар не стосується прямо того, чому можна віддати перевагу ЕМ.
Glen_b -Встановити Моніку

1
Привіт @ DavidJ.Harris, це як Glen_b, я розумію, що обидва алгоритми оптимізують або ймовірність (EM), або ймовірність журналу (градієнтний спуск). Після копання в Google та друзях я перейшов до цього посилання на те, чи вирішено це питання. Якщо я не пропустив розуміння, ЕМ потрапляє до кращого рішення, ніж спуск градієнта.
elsonidoq

Яка цільова функція для k-засобів оптимізації? Це диференційовано?
Владислав Довгалеч

3
Це плавно диференціюється в параметрах (кластерні засоби), але, безумовно, не в призначеннях кластерів (які є багаточленними змінними індикатора)?
Рубен ван Берген

Відповіді:


7

Як зазначається в ОП, можна вирішити k-засоби за допомогою градієнтного спуску, і це може бути корисно у випадку великих масштабних проблем.

Звичайно, існують історичні причини поширеності алгоритмів стилю ЕМ для вирішення k-засобів (тобто алгоритму Ллойда). Алгоритм Ллойда настільки популярний, що люди іноді називають його "алгоритмом k-засобів", і навіть можуть не знати, що існують інші підходи. Але, ця популярність не є незаслуженою.

Ботту та Бенджо (1995) показали, що алгоритм Ллойда еквівалентний оптимізації функції вартості k-засобів за допомогою методу Ньютона. У загальних проблемах з оптимізацією методи другого порядку, як метод Ньютона, можуть зближуватися швидше, ніж методи першого порядку, як градієнтне спускання, оскільки вони використовують інформацію про кривизну цільової функції (а методи першого порядку цього не роблять). В експерименті на відомому наборі даних Iris вони показали, що алгоритм Ллойда дійсно збігався швидше, ніж спуск градієнта. Цікавим було б побачити це порівняння на більш широкому спектрі наборів даних.

Список літератури:

Ботто і Бенджо (1995) . Властивості конвергенції алгоритмів k-означає.


2

Кластеризація K-засобів є без нагляду, а найближчим непідконтрольним методом, який використовує ЕМ, є кластеризація на основі моделей (моделі Гауссових сумішей, GMM). Набридлива проблема кластеризації на основі моделі GMM виникає, коли багато ознак співвідносяться, що спричиняє майже сингулярність в матриці коваріації (кореляції) на основі ознак. У цій ситуації функція ймовірності стає нестабільною, коли показники стану досягають нескінченності, внаслідок чого GMM повністю руйнується.

Таким чином, киньте ідею про EM та kNN - оскільки вона заснована на коваріаційних (кореляційних) матрицях для непідконтрольного аналізу. Ваш запит на оптимізацію дуже нагадує картографування Саммона та класичне метричне та неметричне багатовимірне масштабування (MDS). Картографування Самона засноване на похідних-ітераційних, в той час як різні форми MDS зазвичай є ітераційними або однокроковими ейгендкомпозиціями, які, однак, можуть оптимізуватись під час одношагової операції з матрицею.

Знову озирнувшись на ваш запит: відповідь така: це вже зроблено в картографії Саммона.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.