GMM використовує пагорби, що перекриваються, які тягнуться до нескінченності (але практично рахуються лише за 3 сигми). Кожен бал отримує всі бали ймовірності пагорбів. Також пагорби мають «яйцеподібну форму» [добре, вони симетричні еліпси ] і, використовуючи матрицю повної коваріації, можуть нахилятися .
K-означає важко призначає крапку a одному кластеру, тому оцінки інших центрів кластерів ігноруються (неявно скидаються на нуль / не хвилюється). Пагорби - сферичні мильні бульбашки. Там, де два мильних бульбашки торкаються, межа між ними стає плоскою (гіпер-) площиною. Подібно до того, як ви нагнітаєте піну з багатьох мильних бульбашок, зсередини бульбашки не є плоскими, а є боксерськими, так межі між багатьма (гіпер-) сферами фактично утворюють Вороного розділення простору. У 2D це, як правило, схоже на гексагональну закриту упаковку, подумайте бджолиний вулик (хоча, звичайно, клітини Вороного не гарантовано є шестикутниками). К-означає пагорб круглий і не нахиляється, тому він має меншу силу представлення; але набагато швидше обчислити, особливо у більш високих вимірах.
Оскільки K-засоби використовують евклідову метрику відстані, то передбачається, що розміри є порівнянними і мають однакову вагу. Отже, якщо розмірність X має одиниці миль на годину, що варіюються від 0 до 80, а розмір Y має одиниці фунтів, що варіюються від 0 до 400, і ви вміщуєте кола в цьому просторі XY, то один вимір (і його поширення) буде більш потужним, ніж інший вимір, і затьмарить результати. Ось чому це прийнято нормалізувати дані під час прийому К-засобів.
І GMM, і K-засоби моделюють дані, встановлюючи найкращі наближення до того, що дано. GMM підходить для нахилених яєць, а K-означає, що підходить до кульових куль. Але основні дані можуть бути сформовані як що завгодно, це може бути спіраль або картина Пікассо, і кожен алгоритм все одно буде працювати і робити найкращий знімок. Чи буде виглядає отримана модель чимось схожим на фактичні дані, залежить від основного фізичного процесу, що генерує дані. (Наприклад, вимірювання затримки в часі є односторонніми; чи добре підходить Гаусс? Можливо.)
Rн
Таким чином, ваше двійкове зображення 8х8 буде розглядатися як 64-мірний гіперкуб у першому гіперквадраті. Потім алгоритми використовують геометричні аналогії для пошуку кластерів. Відстань за допомогою K-засобів відображається як евклідова відстань у 64-мірному просторі. Це один із способів зробити це.