Є кілька речей, про які слід пам’ятати.
Як і більшість внутрішніх критеріїв кластеризації , Калінський-Харабаш є евристичним приладом. Правильним способом його використання є порівняння кластерних рішень, отриманих за одними і тими ж даними, - рішення, які відрізняються або за кількістю кластерів, або за методом кластеризації, що використовується.
Немає "прийнятного" значення відсікання. Ви просто порівнюєте значення CH в оку. Чим вище значення, тим "кращим" є рішення. Якщо на графіку лінійних значень CH виявляється, що одне рішення дає пік або хоча б різкий лікоть, виберіть його. Якщо, навпаки, лінія плавна - горизонтальна або висхідна чи низхідна - тоді немає підстав віддавати перевагу одне рішення іншим.
Критерій СН базується на ідеології ANOVA. Звідси випливає, що кластеризовані об'єкти лежать в евклідовому просторі масштабних (а не порядкових чи двійкових чи номінальних) змінних. Якщо кластерні дані були не змінними об'єктів X, а матрицею відмінностей між об'єктами, то мірою несхожості має бути (квадрат) евклідова відстань (або, ще гірше, - інша метрична відстань, що наближається до евклідової відстані за властивостями).
1
Погляньмо на приклад. Нижче наведено розсип даних, які були сформовані у вигляді 5 нормально розподілених кластерів, які лежать досить близько один до одного.
Ці дані були кластеризовані методом ієрархічного середнього зв’язку, і всі рішення кластерів (членство кластерів) з 15-кластерного через 2-кластерне рішення були збережені. Потім були застосовані два критерії кластеризації для порівняння рішень та вибору "кращого", якщо такий є.
Ділянка для Калінський-Харабаш ліворуч. Ми бачимо, що - у цьому прикладі CH відверто вказує 5-кластерне рішення (з маркуванням CLU5_1) як найкраще. Діаграма іншого критерію кластеризації - C-Index (який не заснований на ідеології ANOVA і є більш універсальним у застосуванні, ніж CH). Для С-індексу нижнє значення вказує на "кращу" розв'язку. Як показує сюжет, 15-кластерне рішення формально є найкращим. Але пам’ятайте, що з критеріями кластеризації міцна топографія важливіша у вирішенні, ніж сама величина. Зверніть увагу, що лікоть є в 5-кластерному розчині; 5-кластерне рішення все ще відносно добре, тоді як 4- або 3-кластерні рішення погіршуються стрибками. Оскільки ми зазвичай хочемо отримати «краще рішення з меншими кластерами», вибір 5-кластерного рішення також є розумним під час тестування C-Index.
PS Цей пост також піднімає питання, чи варто більше довіряти фактичному максимуму (або мінімуму) критерію кластеризації, чи скоріше пейзажу сюжету його значень.
1
Огляд внутрішніх критеріїв кластеризації та способів їх використання .