Відповіді:
Немає єдиної правильної візуалізації. Це залежить від того, який аспект кластерів ви хочете бачити або підкреслити.
Ви хочете побачити, як кожна змінна сприяє? Розглянемо паралельний графік координат.
Ви хочете побачити, як кластери розподіляються уздовж основних компонентів? Розглянемо біплот (у 2D або 3D):
Ви хочете шукати групи кластерів у всіх вимірах. Розглянемо розкид відстані від центру кластера 1 проти відстані від центру кластера 2. (За визначенням K означає, що кожен кластер припаде на одну сторону діагональної лінії.)
Ви хочете бачити парні відносини порівняно з кластеризацією. Розглянемо матрицю розсіювання, пофарбовану кластером.
Ви хочете побачити стислий вигляд відстані кластера? Розглянемо порівняння будь-якої візуалізації розповсюдження, наприклад, гістограми, скрипкові сюжети або графічні коробки.
Багатовимірні дисплеї складні, особливо з такою кількістю змінних. У мене дві пропозиції.
Якщо є певні змінні, які особливо важливі для кластеризації, або по суті цікаві, ви можете використовувати матрицю розсіювання та відображати двозначні зв’язки між вашими цікавими змінними. Ви можете навіть використовувати розширені розсіювачі (наприклад, використовувати фігури з розміром, пропорційним третій змінній), щоб додати ще трохи розмірності
Крім того, ви можете використовувати пружинну плату, розроблену для відображення даних високих розмірів, що демонструють кластеризацію. Зауважте, я ніколи не бачив цього в знайомій мені літературі, але думаю, що це дуже цікавий спосіб відображення багатоваріантних даних. Наступне цитування - це те, де сюжет був запропонований спочатку.
Hoffman, PE та ін. (1997) видобуток візуальних та аналітичних даних ДНК. У матеріалах візуалізації IEEE. Фенікс, AZ, стор. 437-441.
І ось тут я спочатку знайшов згадку про це.
Тепер, справедливе попередження, мені не вдалося знайти реалізацію пружинних плодів поза Orange. Потім знову я не так важко шукав!
Я припускаю, що ваші дані є цінними та безперервними, якщо вони дискретні чи не інтервалі, і так далі, я не думаю, що жоден сюжет не буде корисним.
Ви можете використовувати функцію fviz_cluster з factoextra pacakge в Р. Це покаже графік розсіювання ваших даних і різні кольори точок будуть кластером.
Наскільки я розумію, цю функцію виконує PCA, а потім вибирає два перших ПК та будує графіки на 2D.
Будь-яка пропозиція / вдосконалення моєї відповіді вітаються.