Яке прийнятне значення критерію Calinski & Harabasz (CH)?


25

Я зробив аналіз даних, намагаючись кластеризувати поздовжні дані за допомогою R та пакету kml . Мої дані містять близько 400 окремих траєкторій (як це називається у статті). Ви можете побачити мої результати на наступному малюнку:

введіть тут опис зображення

Прочитавши розділ 2.2 "Вибір оптимальної кількості кластерів" у відповідному документі, я не отримав відповідей. Я вважаю за краще мати 3 кластери, але результат все ще буде нормальним із значенням CH 80. Насправді я навіть не знаю, що означає значення CH.

Отже, моє запитання, що є прийнятним значенням критерію Calinski & Harabasz (CH)?


ваші зображення кластерних рішень із SPSS? чи можна порахувати цей критерій СН у SPSS? Спасибі! :) б
berbelein

Ласкаво просимо на сайт, @berbelein. Це не є відповіддю на питання ОП. Будь ласка, використовуйте лише поле "Ваша відповідь" для надання відповідей. Якщо у вас є власне запитання, клацніть на [ASK QUESTION]нього, і ми зможемо вам належним чином допомогти. Оскільки ви тут новачок, ви можете скористатися нашою екскурсією , яка містить інформацію для нових користувачів.
gung - Відновіть Моніку

@berbelein образи від R.
greg121

Відповіді:


40

Є кілька речей, про які слід пам’ятати.

  • Як і більшість внутрішніх критеріїв кластеризації , Калінський-Харабаш є евристичним приладом. Правильним способом його використання є порівняння кластерних рішень, отриманих за одними і тими ж даними, - рішення, які відрізняються або за кількістю кластерів, або за методом кластеризації, що використовується.

  • Немає "прийнятного" значення відсікання. Ви просто порівнюєте значення CH в оку. Чим вище значення, тим "кращим" є рішення. Якщо на графіку лінійних значень CH виявляється, що одне рішення дає пік або хоча б різкий лікоть, виберіть його. Якщо, навпаки, лінія плавна - горизонтальна або висхідна чи низхідна - тоді немає підстав віддавати перевагу одне рішення іншим.

  • Критерій СН базується на ідеології ANOVA. Звідси випливає, що кластеризовані об'єкти лежать в евклідовому просторі масштабних (а не порядкових чи двійкових чи номінальних) змінних. Якщо кластерні дані були не змінними об'єктів X, а матрицею відмінностей між об'єктами, то мірою несхожості має бути (квадрат) евклідова відстань (або, ще гірше, - інша метрична відстань, що наближається до евклідової відстані за властивостями).

  • 1

Погляньмо на приклад. Нижче наведено розсип даних, які були сформовані у вигляді 5 нормально розподілених кластерів, які лежать досить близько один до одного.

введіть тут опис зображення

Ці дані були кластеризовані методом ієрархічного середнього зв’язку, і всі рішення кластерів (членство кластерів) з 15-кластерного через 2-кластерне рішення були збережені. Потім були застосовані два критерії кластеризації для порівняння рішень та вибору "кращого", якщо такий є.

введіть тут опис зображення

Ділянка для Калінський-Харабаш ліворуч. Ми бачимо, що - у цьому прикладі CH відверто вказує 5-кластерне рішення (з маркуванням CLU5_1) як найкраще. Діаграма іншого критерію кластеризації - C-Index (який не заснований на ідеології ANOVA і є більш універсальним у застосуванні, ніж CH). Для С-індексу нижнє значення вказує на "кращу" розв'язку. Як показує сюжет, 15-кластерне рішення формально є найкращим. Але пам’ятайте, що з критеріями кластеризації міцна топографія важливіша у вирішенні, ніж сама величина. Зверніть увагу, що лікоть є в 5-кластерному розчині; 5-кластерне рішення все ще відносно добре, тоді як 4- або 3-кластерні рішення погіршуються стрибками. Оскільки ми зазвичай хочемо отримати «краще рішення з меншими кластерами», вибір 5-кластерного рішення також є розумним під час тестування C-Index.

PS Цей пост також піднімає питання, чи варто більше довіряти фактичному максимуму (або мінімуму) критерію кластеризації, чи скоріше пейзажу сюжету його значень.


1

Огляд внутрішніх критеріїв кластеризації та способів їх використання .


Читач може також побачити питання stats.stackexchange.com/q/242360/3277 .
ttnphns

Я реалізував для SPSS ряд найпопулярніших критеріїв перевірки кластеризації, - будь ласка, відвідайте мою веб-сторінку, колекцію "Критерії кластеризації".
ttnphns
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.