Чи можливо візуалізувати результати аналізу основних компонентів способами, які дають більше розуміння, ніж просто зведені таблиці? Чи можна це зробити, коли кількість спостережень велика, скажімо ~ 1e4? І чи можна це робити в R [інші середовища]?
Чи можливо візуалізувати результати аналізу основних компонентів способами, які дають більше розуміння, ніж просто зведені таблиці? Чи можна це зробити, коли кількість спостережень велика, скажімо ~ 1e4? І чи можна це робити в R [інші середовища]?
Відповіді:
Biplot є корисним інструментом для візуалізації результатів PCA. Це дозволяє одночасно візуалізувати основні показники та напрямки компонентів. З 10000 спостереженнями ви, ймовірно, зіткнетеся з проблемою надмірного складання графіку. Альфа-суміш може допомогти там.
Ось комп'ютерний біплот даних про вино з сховища UCI ML :
Бали відповідають балам PC1 та PC2 кожного спостереження. Стрілки представляють кореляцію змінних з PC1 та PC2. Біле коло вказує максимальну теоретичну протяжність стрілок. Еліпси - це 68% даних еліпсів для кожного з трьох сортів вина в даних.
Я зробив код для створення цього сюжету доступним тут .
Графік Вахтера може допомогти вам уявити власні значення вашої PCA. По суті це QQ-графік власних значень проти розподілу Марченко-Пастур. Я маю приклад тут: є одне домінуюче власне значення, яке знаходиться поза розподілом Марченко-Пастур. Корисність такого роду сюжетів залежить від вашої заявки.
Ви також можете скористатися пакетом психіки.
Він містить метод plot.factor, який будуватиме різні компоненти один проти одного у стилі матриці розсіювання.