Якщо ви випадково розділите зразок на 5 підпроборів, то ваші 5 засобів майже збігаються. Який сенс робити такі близькі точки початковими центрами кластерів?
У багатьох реалізаціях K-засобів вибір стандартних центрів кластерів за замовчуванням базується на протилежній ідеї: знайти 5 точок, які найбільш віддалені один від одного, і зробити їх початковими центрами. Ви можете запитати, який може бути спосіб знайти ті далеко відстані точки? Ось що K-засоби SPSS роблять для цього:
Візьміть будь-які k випадків (точок) набору даних як вихідні центри. Усі інші випадки перевіряються на можливість заміни таких як вихідних центрів такими умовами:
- а) Якщо випадок знаходиться від найближчого до нього центру, ніж відстань між двома найбільш близькими один до одного центрами, випадок замінює той центр останніх двох, до якого він ближче.
- б) Якщо випадок знаходиться далі від центру, що знаходиться найближче до нього, ніж відстань між центром, найближчим до нього, та центром, найближчим до цього останнього, випадок замінює центр, найближчий до нього.
Якщо умова (а) не виконується, умова (б) перевіряється; якщо його не влаштовують, то справа не стає центром. В результаті такого запуску випадків ми отримуємо k кращих випадків у хмарі, які стають початковими центрами. Результат цього альго, хоча і досить надійний, не є повністю нечутливим до початкового вибору "будь-яких k випадків" та до порядку сортування випадків у наборі даних; Таким чином, кілька випадкових спроб запуску все ще вітаються, як це завжди буває з K-засобами.
Дивіться мою відповідь зі списком популярних методів ініціалізації для k-засобів. Метод розбиття на випадкові підпроби (тут я критикував мене та інші), а також описаний метод, використовуваний SPSS - також є у списку.