Досить складно запропонувати чітке рішення про те, як вибрати "найкращу" кількість кластерів у ваших даних, незалежно від методу кластеризації, який ви використовуєте, оскільки Cluster Analysis прагне виділити групи статистичних одиниць (будь то особи чи змінні). ) з дослідницькою чи описовою метою, по суті. Отже, вам також доведеться інтерпретувати вихід вашої схеми кластеризації, і кілька кластерних рішень можуть бути однаково цікавими.
Тепер, що стосується звичайних статистичних критеріїв використовуються для прийняття рішення , коли припинити агреговані дані, а загострений на @ars більшість візуальні наведення критеріїв , в тому числі аналізу дендрограмми або перевірок кластерів профілів, звані також силует ділянки (Rousseeuw, 1987) . Також було запропоновано декілька числових критеріїв , також відомих як індекси валідності, наприклад, індекс валідності Данна, індекс дій Девіс-Боулдіна, індекс С, гамма Губерта. Ієрархічна кластеризація часто виконується разом з k-засобами (насправді, декількома примірниками k-засобів, оскільки це стохастичний алгоритм), так що вона додає підтримку знайденим рішенням кластеризації. Я не знаю, чи всі ці речі легко доступні в Python, але величезна кількість методів доступна в R (див.Перегляд завдань кластера , який вже цитується @mbq для відповідного питання, Які інструменти можна використовувати для застосування алгоритмів кластеризації на MovieLens? ). Інші підходи включають нечітке кластеризацію та кластеризацію на основі моделей (їх також називають прихованим аналізом ознак у психометричній спільноті), якщо ви шукаєте більш надійний спосіб вибору кількості кластерів у ваших даних.
До речі, я щойно натрапив на цю веб-сторінку, scipy-кластер , яка є розширенням до Scipy для створення, візуалізації та аналізу ієрархічних кластерів . Може, вона включає інші функціональні можливості? Я також чув про PyChem, який пропонує досить непогані речі для багатоваріантного аналізу.
Наступна посилання також може бути корисною:
Steinley, D., & Brusco, MJ (2008). Вибір змінних в кластерному аналізі: емпіричне порівняння восьми процедур. Психометріка , 73 , 125-144.