Чому ми використовуємо k-засоби замість інших алгоритмів?


14

Я досліджував k-засоби, і ось що я отримав: k-засоби - це один із найпростіших алгоритмів, який використовує метод непідконтрольного навчання для вирішення відомих проблем кластеризації. Він працює дуже добре з великими наборами даних.

Однак є і недоліки K-засобів, які є:

  • Сильна чутливість до залишків і шуму
  • Не добре працює з некруглою формою кластера - кількість кластера та початкове значення насіння потрібно заздалегідь вказати
  • Низька здатність передавати локальний оптимум.

Чи є щось велике щодо k-засобів, тому що, здається, недоліки виходять за рамки хороших речей щодо k-засобів.

Будь ласка, навчіть мене.


3
Не існує такого поняття, як хороший метод чи хороший алгоритм без контексту проблеми, в якій він використовується. Таким чином, ми використовуємо k-засоби, оскільки є проблеми, для яких k-засоби є оптимальним рішенням (;

Відповіді:


8

Інші алгоритми кластеризації з кращими можливостями, як правило, дорожчі. У цьому випадку k-засоби стають чудовим рішенням для попереднього кластеризації, зменшуючи простір у непересічні менші підпростори, де можна застосувати інші алгоритми кластеризації.


Дорожче, як у вартості програми? або?
Золотий череп з візерунком

5
Дорожче, як у повільному та інтенсивному запам'ятовуванні.
Мартін О'Лірі

О Я бачу. Чи є якісь інші переваги, окрім швидких, надійних та легших для розуміння? І все одно дякую за відповіді @ MartinO'Leary та @ zeferino
Золотий череп із візерунком

6

К-засоби найпростіші. Реалізувати та запустити. Все, що вам потрібно зробити, це вибрати "k" і запустити його кілька разів.

Більшість розумних алгоритмів (зокрема, хороших) набагато складніше ефективно реалізувати (ви побачите коефіцієнти в 100 разів у різницю часу виконання) та встановити набагато більше параметрів.

Крім того, більшості людей не потрібні кластери якості . Вони насправді задоволені чим-небудь, що віддалено працює для них. Крім того, вони насправді не знають, що робити, коли у них були складніші кластери. K-означає, що моделює кластери, використовуючи найпростішу модель коли-небудь - центроїд - саме те, що їм потрібно: масове скорочення даних до центроїдів .


0

K-засоби - це як алгоритм сортування Exchange. Легкий для розуміння, допомагає вникнути в тему, але ніколи не повинен використовуватися для нічого реального ніколи. У випадку Exchange Sort краще навіть сортування бульбашок, оскільки воно може зупинитися рано, якщо масив буде частково відсортований. У випадку K-засобів алгоритм ЕМ - це той самий алгоритм, але передбачає розподіл Гаусса для кластерів замість припущення про рівномірне розподіл K-засобів. K-засоби - крайній випадок ЕМ, коли всі кластери мають діагональні коваріаційні матриці. Гауссова структура означає, що кластери стискаються до даних дуже приємно. Це оточує серйозні заперечення, які ви правильно ставите в питанні. І ЕМ - це не набагато дорожче, ніж K-засоби, насправді. (Я можу реалізувати обидва в таблиці Excel.) Але для серйозних програм кластеризації,

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.