Як інтерпретувати дендрограму ієрархічного кластерного аналізу


25

Розглянемо приклад R нижче:

plot( hclust(dist(USArrests), "ave") )
  1. Що саме означає вісь y "Висота"?

  2. Дивлячись на Північну Кароліну та Каліфорнію (скоріше ліворуч). Чи Каліфорнія «ближче» до Північної Кароліни, ніж Арізона? Чи можу я зробити таке тлумачення?

  3. Гаваї (праворуч) приєднується до кластера досить пізно. Я бачу це як "вище", ніж інші держави. Взагалі, як я можу трактувати той факт, що мітки "вищі" або "нижчі" в дендрограмі правильно?

введіть тут опис зображення


1
Відповіді в ?hclust.
Scortchi

3
Позиції етикеток не мають значення. Якщо ви не розумієте вісь y, то дивно, що вам здається, що ви добре розумієте ієрархічну кластеризацію.
Стефан Лоран

1
Також слід пам’ятати, що ієрархічна кластеризація, як правило, не дає вам ієрархічної (деревної) класифікації . Середній метод (який ви використовували), зокрема, не має. Дивіться останній пункт тут .
ttnphns

1
Позиція етикетки має невелике значення, хоча. Чим вища позиція, тим пізніше об'єкт зв'язується з іншими, а значить, більше він схожий на чужий або бродячий.
ttnphns

3
@ StéphaneLaurent Ви праві, що це звучить як суперечність. З іншого боку, я все ще думаю, що мені вдається перервати дендограму даних, які я добре знаю. Крім того, позиція лаби має невелике значення, як вказують ttnphns і Пітер Флом. Нарешті, ваш коментар не був для мене конструктивним.
Рік

Відповіді:


17

1) Вісь y - це міра близькості або окремих точок даних, або кластерів.

2) Каліфорнія та Арізона однаково віддалені від Флориди, оскільки CA та AZ знаходяться у скупченні до того, як будь-який приєднається до FL.

3) Гаваї приєднуються досить пізно; приблизно на 50. Це означає, що кластер, до якого він приєднується, ближче один до одного, перш ніж HI приєднається. Але не набагато ближче. Зауважте, що кластер, до якого він приєднується (той, що знаходиться праворуч), формується приблизно в 45. Той факт, що HI приєднується до кластеру пізніше, ніж будь-який інший стан, просто означає, що (використовуючи вибрану метрику) HI не так вже й близько будь-якої конкретної держави.


Таким чином, "висота" дає мені уявлення про значення критерію зв'язку (як тут ) - в моєму випадку середня відстань кластерів один до одного. Чи це правильно? Спасибі!
Рік

Хіба це не по осі Y заходи Дісов подібності між кластерами і точками? Тобто негативна близькість, тому що вона найбільша, коли речі найбільш різняться, а не навпаки @PeterFlom
Феліпе Альмейда

21

У мене були ті ж запитання, коли я намагався вивчити ієрархічну кластеризацію, і я виявив наступний pdf дуже корисним.

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

Навіть якщо Річард уже зрозумів процедуру, інші, хто переглядає питання, ймовірно, можуть використовувати pdf, його дуже простий та зрозумілий esp для тих, хто не має достатньої кількості математики.


3
Просто хочу повторити, що пов'язаний PDF-файл дуже хороший.
Гейзенберг

Довідково: Клімберг, Рональд К. та Б.Д. Маккаллоу. 2013. «Глава 7: Ієрархічний кластерний аналіз». Основи прогностичної аналітики з JMP. Кері, штат Північна Кароліна: Інститут SAS.
jay.sf

1

Горизонтальна вісь представляє кластери. Вертикальна шкала на дендрограмі представляє відстань або несхожість. Кожне з'єднання (злиття) двох кластерів представлене на діаграмі шляхом розщеплення вертикальної лінії на дві вертикальні лінії. Вертикальне положення розщеплення, показане короткою смугою, дає відстань (несхожість) між двома кластерами.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.