Візуально побудуйте багатовимірні кластерні дані


18

У мене є набір даних з 16 змінними, і після кластеризації по kmeans я хочу побудувати дві групи.

Які сюжети ви пропонуєте візуально представити двома кластерами?

Відповіді:


23

Немає єдиної правильної візуалізації. Це залежить від того, який аспект кластерів ви хочете бачити або підкреслити.

Ви хочете побачити, як кожна змінна сприяє? Розглянемо паралельний графік координат.

Паралельні координати для двох кластерів та кластерних засобів

Ви хочете побачити, як кластери розподіляються уздовж основних компонентів? Розглянемо біплот (у 2D або 3D):

Кластерний біплот

Ви хочете шукати групи кластерів у всіх вимірах. Розглянемо розкид відстані від центру кластера 1 проти відстані від центру кластера 2. (За визначенням K означає, що кожен кластер припаде на одну сторону діагональної лінії.)

введіть тут опис зображення

Ви хочете бачити парні відносини порівняно з кластеризацією. Розглянемо матрицю розсіювання, пофарбовану кластером.

введіть тут опис зображення

Ви хочете побачити стислий вигляд відстані кластера? Розглянемо порівняння будь-якої візуалізації розповсюдження, наприклад, гістограми, скрипкові сюжети або графічні коробки.

введіть тут опис зображення


2

Багатовимірні дисплеї складні, особливо з такою кількістю змінних. У мене дві пропозиції.

Якщо є певні змінні, які особливо важливі для кластеризації, або по суті цікаві, ви можете використовувати матрицю розсіювання та відображати двозначні зв’язки між вашими цікавими змінними. Ви можете навіть використовувати розширені розсіювачі (наприклад, використовувати фігури з розміром, пропорційним третій змінній), щоб додати ще трохи розмірності

Крім того, ви можете використовувати пружинну плату, розроблену для відображення даних високих розмірів, що демонструють кластеризацію. Зауважте, я ніколи не бачив цього в знайомій мені літературі, але думаю, що це дуже цікавий спосіб відображення багатоваріантних даних. Наступне цитування - це те, де сюжет був запропонований спочатку.

Hoffman, PE та ін. (1997) видобуток візуальних та аналітичних даних ДНК. У матеріалах візуалізації IEEE. Фенікс, AZ, стор. 437-441.

І ось тут я спочатку знайшов згадку про це.

Тепер, справедливе попередження, мені не вдалося знайти реалізацію пружинних плодів поза Orange. Потім знову я не так важко шукав!

Я припускаю, що ваші дані є цінними та безперервними, якщо вони дискретні чи не інтервалі, і так далі, я не думаю, що жоден сюжет не буде корисним.


1
Існує реалізація Radviz для R: cran.r-project.org/web/packages/Radviz/vignettes/…
pmav99

1

Ви можете використовувати функцію fviz_cluster з factoextra pacakge в Р. Це покаже графік розсіювання ваших даних і різні кольори точок будуть кластером.

Наскільки я розумію, цю функцію виконує PCA, а потім вибирає два перших ПК та будує графіки на 2D.

Будь-яка пропозиція / вдосконалення моєї відповіді вітаються.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.