Мета K-Means - зменшити дисперсію всередині кластера, і оскільки він обчислює центроїди як середню точку кластера, для правильного сходження необхідно використовувати відстань Евкліда . Тому, якщо ви хочете абсолютно використовувати K-Means, вам потрібно переконатися, що ваші дані добре працюють з ним.
Представництво
K-Means та кластеризація взагалі намагається розділити дані на змістовні групи, переконавшись, що екземпляри в одних кластерах схожі між собою. Тому вам потрібен хороший спосіб представити свої дані, щоб ви могли легко обчислити змістовну міру подібності.
Використання однокольорового кодування на категоричних змінних - це гарна ідея, коли категорії знаходяться на відстані одна від одної. Наприклад, якщо у вас кольори світло-синій, темно-синій та жовтий, використання однокольорового кодування може не дати найкращих результатів, оскільки темно-синій та світло-блакитний, швидше за все, "ближче" один до одного, ніж вони до жовтого.
Якщо категоричне значення не є «рівновіддаленим» і його можна замовити, ви також можете надати категоріям числове значення. Наприклад, дитина, підліток, дорослий потенційно можуть бути представлені як 0, 1 і 2. Це має сенс, оскільки підліток «ближче» до того, щоб бути дитиною, ніж дорослий.
К-медоїди
Більш загальний підхід до K-Means - це K-Medoids. K-Medoids працює аналогічно K-Means, але головна відмінність полягає в тому, що центроїд для кожного кластера визначається як точка, що зменшує суму кластери відстаней у межах кластера. Застосування цього дозволяє використовувати будь-яку міру відстані, яку ви хочете, і, отже, ви можете створити власну власну міру, яка враховує, які категорії мають бути близькими чи ні.