Відповідь Сергія містить критичний момент, який полягає в тому, що коефіцієнт силуету кількісно визначає досягнуту якість кластеризації - тому слід вибрати кількість кластерів, що максимально збільшує коефіцієнт силуету.
Довга відповідь полягає в тому, що найкращий спосіб оцінити результати ваших зусиль з кластеризації - це почати з фактичного вивчення - інспекції людини - сформованих кластерів та визначення визначення на основі розуміння того, що представляють дані, що представляє кластер, і чого планується кластеризація.
Існує численні кількісні методи оцінки результатів кластеризації, які слід використовувати як інструменти, з повним розумінням обмежень. Вони, як правило, мають досить інтуїтивний характер, і тому мають природну привабливість (як проблеми кластеризації взагалі).
Приклади: маса кластера / радіус / щільність, згуртованість або поділ між кластерами тощо. Ці поняття часто поєднуються, наприклад, відношення поділу до згуртованості повинно бути великим, якщо кластеринг був успішним.
Спосіб вимірювання кластеризації визначається типом використовуваних алгоритмів кластеризації. Наприклад, вимірювання якості повного алгоритму кластеризації (в якому всі точки розміщуються в кластери) може сильно відрізнятися від вимірювання якості алгоритму нечіткої кластеризації на основі порогових показників (в якому деяку точку можна залишити не кластеризованою як "шум" ).
Коефіцієнт силуету - одна з таких мір. Він працює наступним чином:
Для кожної точки p спочатку знайдіть середню відстань між p та всіма іншими точками в одному кластері (це міра згуртованості, назвіть це A). Потім знайдіть середню відстань між p і всіма точками в найближчому кластері (це міра відокремлення від найближчого іншого кластера, назвіть його B). Коефіцієнт силуету для p визначається як різниця між B і A, поділена на більший з двох (max (A, B)).
Ми оцінюємо коефіцієнт кластера кожної точки і з цього можемо отримати «загальний» середній коефіцієнт кластера.
Інтуїтивно ми намагаємось виміряти простір між кластерами. Якщо згуртованість кластера хороша (A невелика) і розділення кластерів добре (B велике), чисельник буде великим і т.д.
Я побудував тут приклад, щоб продемонструвати це графічно.
На цих ділянках однакові дані викладаються п'ять разів; кольори позначають кластери, створені за допомогою k-засобів кластеризації, з k = 1,2,3,4,5. Тобто я змусив алгоритм кластеризації розділити дані на 2 кластери, потім 3 і так далі, і пофарбував графік відповідно.
Графік силуету показує, що коефіцієнт силуету був найвищим, коли k = 3, припускаючи, що це оптимальна кількість кластерів. У цьому прикладі нам пощастило, що ми зможемо візуалізувати дані, і ми можемо погодитися, що дійсно три кластери найкраще фіксують сегментацію цього набору даних.
Якби нам не вдалося візуалізувати дані, можливо, через більш високу розмірність, сюжетний силует все-таки дасть нам пропозицію. Однак, я сподіваюсь, що моя дещо затята відповідь тут також вказує на те, що це «пропозиція» може бути дуже недостатнім або просто неправильним у певних сценаріях.