Як визначити кількість кластерів у кластеризації K-засобів?

Чи є спосіб визначити оптимальне число кластера чи мені просто спробувати різні значення та перевірити коефіцієнти помилок, щоб визначити найкраще значення?

clustering unsupervised-learning

— беркай
джерело

@berkay Як визначити показник помилок для цього непідконтрольного методу? (чи ви маєте на увазі всередині СС?)

— chl

@chl, я можу використовувати суму помилок у квадраті для всіх кластерів або загальну точність (у цьому випадку я знаю мітки класів.)

— berkay

@berkay Простий алгоритм пошуку кластерів № - це обчислити середній WSS за 20 запусків k-засобів на збільшенні кількості кластерів (починаючи з 2 і закінчуючи скажімо 9 або 10), і зберегти рішення, яке має мінімальний WSS для цього набору кластерів. Інший метод - статистика прогалини . Але якщо ви вже маєте мітки примірників, то чому ви намагаєтесь непідтримувати метод?

— chl

@chl дякую, гарне запитання, ми можемо здогадатися про кластери залежно від особливостей ідентифікації, я аналізую нові характеристики вторгнення, імітацію юридичних застосувань.

— Беркай

Я відповів на подібне запитання, використовуючи півдесятка методів (використовуючи R) тут: stackoverflow.com/a/15376462/1036500

— Бен

Я використовую метод - використовувати CCC (Критерії кубічної кластеризації). Я шукаю, щоб CCC збільшився до максимуму, оскільки я збільшував кількість кластерів на 1, а потім спостерігаю, коли CCC починає знижуватися. У цей момент я беру кількість кластерів на (локальному) максимумі. Це було б аналогічно використанню сюжетного опису для вибору кількості основних компонентів.

Технічний звіт SAS A-108 Критерій кубічної кластеризації ( pdf )

= кількість спостережень = число в кластері= кількість змінних = кількість кластерів = матриця даних = матриця кластера означає= кластерний показник (якщо прок.в кластері, 0 в іншому випадку) $n$
$n_k$ $k$
$p$
$q$
$X$ $n\times p$
$M$ $q\times p$
$Z$ $z_{ik}=1$ $i$ $k$

Припустимо, кожна змінна має значення 0: ,
$Z’Z = \text{diag}(n_1, \cdots, n_q)$ $M = (Z’Z)-1Z’X$

$SS$ (загальна) матриця = = (між кластерами) матриця = = (в межах кластерів) матриця = = $T$ $X’X$
$SS$ $B$ $M’ Z’Z M$
$SS$ $W$ $T-B$

$R^2 = 1 – \frac{\text{trace(W)}}{\text{trace}(T)}$
(слід = сума діагональних елементів)

Складіть стовпці в один довгий стовпець. Регрес на добуток Kronecker з з матрицею ідентичності Обчислити для цієї регресії - те саме $X$
$Z$ $p\times p$
$R^2$ $R^2$

Ідея CCC полягає в тому, щоб порівняти отриманий для заданого набору кластерів з ви отримаєте, кластеризуючи рівномірно розподілений набір точок у мірному просторі. $R^2$ $R^2$ $p$

— Ральф Вінтерс
джерело

Окрім CCC є й інші критерії. Погляньте на Визначення кількості кластерів у наборі даних , щоб побачити основні.

— Вінсент Лабатут