Якщо кластеризація k-засобів є формою моделювання суміші Гаусса, чи можна її використовувати, коли дані не є нормальними?


21

Я читаю Бішопа про алгоритм ЕМ для GMM та взаємозв'язок між GMM та k-засобами.

У цій книзі йдеться про те, що k-засоби - це тверда версія GMM. Мені цікаво, чи означає це, що якщо дані, які я намагаюся кластеризувати, не є гауссовими, я не можу використовувати k-засоби (або, принаймні, непридатні для використання)? Наприклад, що робити, якщо дані - зображення рукописних цифр, що складаються з 8 * 8 пікселів, кожне зі значенням 0 або 1 (і припустимо, що вони незалежні, тому це має бути суміш Бернуллі)?

Я трохи збентежений з цього приводу і буду цінувати будь-які думки.


2
Якщо ви запитуєте, чи дійсно виконувати кластеризацію k-засобів на ненормальних даних, відповідь - так, якщо дані вважаються безперервними. Двійкові дані не безперервні. Деякі люди роблять k-засоби на таких даних, що є евристично допустимим, але теоретично недійсним.
ttnphns

Немає моделі ймовірності для k-засобів, тому немає припущення про нормальність для визнання недійсним. (не означає, що він буде добре працювати)
домисли

1
@conjectures Хм ... Але k-menas еквівалентний GMM, і GMM вважає нормальним.
eddie.xie

@ttnphns Дякуємо за вашу відповідь! Тож я здогадуюсь, якщо я використовую TF-IDF для передачі тексту в бали та зробити його безперервним, то я можу застосувати, і він дійсний?
eddie.xie

Я раптом усвідомлюю, що GMM є сумішшю (сумою) кількох гаусів, і вона повинна вміти виражати будь-який розподіл за даними достатньою кількістю сумішей. Таким чином, навіть GMM та K-засоби еквівалентні, не означає, що K-засоби не можуть використовувати ненормальні дані, оскільки GMM може виражати будь-який розподіл. Це правильно?
eddie.xie

Відповіді:


20

У типових ситуаціях, що стосуються EM GMM, слід враховувати дисперсію та коваріацію. Це не робиться в k-засобах.

Але дійсно, одна з популярних евристик для k-засобів (зауважте: k-засоби - це проблема, а не алгоритм) - алгоритм Ллойда - це, по суті, алгоритм ЕМ, що використовує модель центроїда (без відхилення) і жорсткі завдання.

Роблячи кластеризацію стилів k-означає (тобто мінімізацію дисперсії), ви

  • випадково мінімізувати відстань у квадраті Евкліда, тому що внесок дисперсії WCSS (всередині кластера сума квадратів) = евклідова відстань у квадраті
  • випадково призначити об'єкти найближчому кластеру за евклідовою дистанцією, оскільки функція sqrt є однотонною (зауважте, що середнє значення не оптимізує евклідові відстані, а функцію WCSS)
  • представляють кластери, що використовують тільки центроїд
  • отримати кларонні клітини Вороного, тобто багатокутники
  • найкраще працює зі сферичними кластерами

argminSi=1кхjSiг=1D(хjг-мкiг)2
S={S1Sк}кDхjгjг

Зазвичай кажуть, що k-засоби передбачають сферичні кластери. Загальновизнано, що кластери k-засобів - це клітини Вороного, тобто не сферичні. Обидва є правильними, і обидва - неправильними. Перш за все, кластери - це не повні комірки Вороного, а лише відомі в них об'єкти. Не потрібно вважати, що мертвий простір між кластерами є частиною будь-якого кластеру, оскільки наявність об'єкта там вплине на результат алгоритму. Але не так вже й краще назвати його «сферичним», лише тому, що евклідова відстань є сферичною. K-означає не хвилює евклідової відстані. Все, що це, є евристичним, щоб мінімізувати відхилення . І це насправді те, що ви повинні вважати k-значить: мінімізація дисперсії.


Дозвольте запропонувати вам трохи уточнити деякі свої вирази - для більшої точності. Наприклад, що таке minimize squared euclidean distanceабо minimize the variances? Повинні бути слова "сума" або "об'єднано" або такі, тому що у нас є 2+ кластери, чи не так?
ttnphns

BTW, оскільки k-означає мінімізує об'єднану суму в кластері d ^ 2, поділену на кількість об'єктів у відповідному кластері, ваш пункт coincidentally minimize Euclidean distance, because the sqrt function is monotone, якщо бути точним, не правильним.
ttnphns

Правильною цільовою функцією, за допомогою якої можна довести конвергенцію, є WCSS, сума класів у межах кластера . Дійсно, це не мінімізує евклідові відстані, але найближче центро-евклідове відстань - це також оптимальне призначення WCSS.
Аноні-Мус -Встановити Моніку

Ваше формулювання залишається, на жаль, сумнівним . Що фраза minimize squared Euclidean distance, because WCSS variance contribution = squared euclidean distance означає , ? Ви кажете, що "квадрати d між об'єктами в кластерах мінімізуються, оскільки WCSS відхилень стає мінімізованим", або просто "WCSS відхилень мінімізується, які - відхилення - за своєю природою є евклідовими відстанями"? Або щось ще?
ttnphns

1
Очевидно, k-засоби - хороший вибір лише в тому випадку, якщо ви хочете центроїдальну модель своїх даних. Якщо ви хочете оптимізувати попарно відстані, використовуйте ієрархічну кластеризацію.
Anonymous-Mousse -Встановити Моніку

8

GMM використовує пагорби, що перекриваються, які тягнуться до нескінченності (але практично рахуються лише за 3 сигми). Кожен бал отримує всі бали ймовірності пагорбів. Також пагорби мають «яйцеподібну форму» [добре, вони симетричні еліпси ] і, використовуючи матрицю повної коваріації, можуть нахилятися .

K-означає важко призначає крапку a одному кластеру, тому оцінки інших центрів кластерів ігноруються (неявно скидаються на нуль / не хвилюється). Пагорби - сферичні мильні бульбашки. Там, де два мильних бульбашки торкаються, межа між ними стає плоскою (гіпер-) площиною. Подібно до того, як ви нагнітаєте піну з багатьох мильних бульбашок, зсередини бульбашки не є плоскими, а є боксерськими, так межі між багатьма (гіпер-) сферами фактично утворюють Вороного розділення простору. У 2D це, як правило, схоже на гексагональну закриту упаковку, подумайте бджолиний вулик (хоча, звичайно, клітини Вороного не гарантовано є шестикутниками). К-означає пагорб круглий і не нахиляється, тому він має меншу силу представлення; але набагато швидше обчислити, особливо у більш високих вимірах.

Оскільки K-засоби використовують евклідову метрику відстані, то передбачається, що розміри є порівнянними і мають однакову вагу. Отже, якщо розмірність X має одиниці миль на годину, що варіюються від 0 до 80, а розмір Y має одиниці фунтів, що варіюються від 0 до 400, і ви вміщуєте кола в цьому просторі XY, то один вимір (і його поширення) буде більш потужним, ніж інший вимір, і затьмарить результати. Ось чому це прийнято нормалізувати дані під час прийому К-засобів.

І GMM, і K-засоби моделюють дані, встановлюючи найкращі наближення до того, що дано. GMM підходить для нахилених яєць, а K-означає, що підходить до кульових куль. Але основні дані можуть бути сформовані як що завгодно, це може бути спіраль або картина Пікассо, і кожен алгоритм все одно буде працювати і робити найкращий знімок. Чи буде виглядає отримана модель чимось схожим на фактичні дані, залежить від основного фізичного процесу, що генерує дані. (Наприклад, вимірювання затримки в часі є односторонніми; чи добре підходить Гаусс? Можливо.)

Rн

Таким чином, ваше двійкове зображення 8х8 буде розглядатися як 64-мірний гіперкуб у першому гіперквадраті. Потім алгоритми використовують геометричні аналогії для пошуку кластерів. Відстань за допомогою K-засобів відображається як евклідова відстань у 64-мірному просторі. Це один із способів зробити це.


Зверніть увагу, що обидва алгоритми також припускають, що космічні осі є однаково щільними у всіх точках, тому розміщення даних експоненціально, логарифмічно чи синусоїдально зазвичай виграє від попереднього перетворення для перенастроювання даних у приблизно лінійно-мінливий домен.
DragonLord
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.