Кластеризація K-Means та EM: як вони пов'язані?


50

Я вивчив алгоритми кластеризації даних (без нагляду): EM та k-засоби. Я продовжую читати наступне:

k-засоби - це варіант ЕМ, з припущеннями, що кластери сферичні.

Чи може хтось пояснити вищезгадане речення? Я не розумію, що таке сферичні засоби, і як пов'язані kmeans та EM, оскільки один робить імовірнісне призначення, а інший робить це детермінованим способом.

Крім того, в якій ситуації краще використовувати кластеризацію k-засобів? або використовувати кластеризацію EM?


Сферичні означають однакові дисперсійно-коваріаційні матриці для кожного кластеру (припускаючи гауссова розподіл), який також відомий як кластеризація на основі моделі. Який підхід ви вважаєте детермінованим?
chl

2
Було б добре, якщо ви дасте джерело цитування.
ttnphns

1
k-означає "передбачає", що скупчення є більш-менш круглими і твердими (не сильно витягнутими або зігнутими або просто кільцевими) хмарами в евклідовому просторі. Вони не зобов'язані надходити від звичайних розподілів. EM вимагає цього (або хоча б конкретний тип розподілу, щоб бути відомим).
ttnphns

Відповіді:


38

К означає

  1. Важко призначити точку даних одному конкретному кластеру на конвергенцію.
  2. Він використовує норму L2 при оптимізації (Min {Theta} точка норми L2 та її центральні координати).

ЕМ

  1. Soft призначає кластери крапку (тому вона дає ймовірність, що будь-яка точка належить будь-якому центроїду).
  2. Це не залежить від норми L2, але ґрунтується на очікуванні, тобто ймовірності приналежності точки до певного кластеру. Це робить K-засоби упередженими до сферичних скупчень.

57

Не існує алгоритму "k-засобів". Існує алгоритм MacQueens для k-засобів, алгоритм Lloyd / Forgy для k-засобів, метод Hartigan-Wong, ...

Також не існує EM-алгоритму. Це загальна схема багаторазового очікування ймовірностей, а потім максимізації моделі. Найпопулярніший варіант ЕМ також відомий під назвою "Гауссова моделювання сумішей" (GMM), де моделлю є багатовимірні гауссові розподіли.

Можна розглянути алгоритм Ллойда, що складається з двох етапів:

  • крок Е, де кожен об'єкт присвоюється центроїду таким чином, що він призначається найбільш ймовірному кластеру.
  • крок М, де модель (= центроїди) перераховується (= оптимізація найменших квадратів).

... повторення цих двох етапів, як це зробив Ллойд, робить це фактично екземпляром загальної схеми ЕМ. Він відрізняється від GMM тим, що:

  • він використовує жорсткий розділ, тобто кожен об'єкт присвоюється рівно одному кластеру
  • модель є лише центроїдами, не враховуються коваріації та відхилення

kk

10
Багато книг дорівнюють k-значень алгоритму lloyds, але він ніколи не називав його k-означає. MacQueen представив ім'я k-означає. Вибачте: багато книг тут використовують неправильні імена . k-засоби - це проблема, яка має лише одне популярне рішення. Насправді, R запустить Hartigan-Wong за замовчуванням для вирішення kmeans.
Аноні-Мус

4

Ось приклад, якби я робив це в mplus, що може бути корисним і компліментом більш вичерпними відповідями:

Скажіть, у мене є три безперервні змінні і хочу визначити кластери на їх основі. Я б вказав модель суміші (більш конкретно в даному випадку модель латентного профілю), передбачаючи умовну незалежність (спостережувані змінні незалежні, враховуючи приналежність кластеру) як:

Model: 
%Overall%
v1* v2* v3*;  ! Freely estimated variances
[v1 v2 v3];   ! Freely estimated means

Я би запускав цю модель кілька разів, кожного разу вказуючи різну кількість кластерів, і вибирав рішення, яке мені найбільше подобається (робити це величезна тема самостійно).

Щоб потім запустити k-засоби, я б вказав таку модель:

Model: 
%Overall%
v1@0 v2@0 v3@0;  ! Variances constrained as zero
[v1 v2 v3];      ! Freely estimated means

Отже, членство в класі базується лише на відстані до засобів спостережуваних змінних. Як зазначено в інших відповідях, відхилення не мають нічого спільного.

Приємне, що робити це в mplus, це те, що це вкладені моделі, і тому ви можете безпосередньо перевірити, чи обмеження призводять до гіршого розміру чи ні, крім того, щоб можна було порівняти розбіжність у класифікації між двома методами. Обидві ці моделі, до речі, можна оцінити за допомогою алгоритму ЕМ, тому різниця справді більше стосується моделі.

Якщо ви думаєте, що у тривимірному просторі 3 означають точку ... і дисперсії трьох осей еліпсоїда, що проходить через цю точку. Якщо всі три дисперсії однакові, ви отримаєте сферу.


Дякую за цей приклад. Це дуже допомагає зафіксувати деякі ідеї.
Міна
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.