Візуалізуючи мільйон, видання PCA


31

Чи можливо візуалізувати результати аналізу основних компонентів способами, які дають більше розуміння, ніж просто зведені таблиці? Чи можна це зробити, коли кількість спостережень велика, скажімо ~ 1e4? І чи можна це робити в R [інші середовища]?


2
Кілька питань: Скільки у вас компонентів? Окрім розміру вибірки, чи є щось, що змушує відображення цього висновку PCA відрізнятися від відображення інших безперервних змінних, з якими можна мати справу? Ви намагаєтесь протиставити бали різних груп, і якщо так, то скільки? Як правило, чого ви сподіваєтеся досягти у своїх показниках?
rolando2

Відповіді:


53

Biplot є корисним інструментом для візуалізації результатів PCA. Це дозволяє одночасно візуалізувати основні показники та напрямки компонентів. З 10000 спостереженнями ви, ймовірно, зіткнетеся з проблемою надмірного складання графіку. Альфа-суміш може допомогти там.

Ось комп'ютерний біплот даних про вино з сховища UCI ML :

PC Biplot Wine Data з UCI ML Repository

Бали відповідають балам PC1 та PC2 кожного спостереження. Стрілки представляють кореляцію змінних з PC1 та PC2. Біле коло вказує максимальну теоретичну протяжність стрілок. Еліпси - це 68% даних еліпсів для кожного з трьох сортів вина в даних.

Я зробив код для створення цього сюжету доступним тут .


5
Дійсно додаток динаміту.
rolando2

1

@amoeba Радіус кола відповідає максимально можливій довжині стрілок. Скажіть, V - ap×2VVVТ

V

4

Графік Вахтера може допомогти вам уявити власні значення вашої PCA. По суті це QQ-графік власних значень проти розподілу Марченко-Пастур. Я маю приклад тут: Графік Вахтера, що показує єдине домінуюче власне значенняє одне домінуюче власне значення, яке знаходиться поза розподілом Марченко-Пастур. Корисність такого роду сюжетів залежить від вашої заявки.


7
Було б корисно дізнатися більше тут (можливо, деякі додаткові пояснення & / або деякі корисні посилання). Що таке розподіл Марченко-Пастур? Як це стосується PCA? Що це означає для ваших результатів, якщо вони дотримуються чи ні? (тощо)
gung - Відновіть Моніку

0

Ви також можете скористатися пакетом психіки.

Він містить метод plot.factor, який будуватиме різні компоненти один проти одного у стилі матриці розсіювання.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.