У мене є набір даних з 11 змінними і PCA (ортогональний) було зроблено для зменшення даних. Визначивши кількість компонентів, які потрібно зберегти, для мене було видно з моїх знань про тему та графік обстеження (див. Нижче), що двох основних компонентів (ПК) було достатньо для пояснення даних, а інші компоненти були менш інформативними.
Діаграма обрізу з паралельним аналізом: спостережувані власні значення (зелені) та модельовані власні значення на основі 100 моделювання (червоний). Графік екрана пропонує 3 ПК, тоді як паралельний тест пропонує лише перші два ПК.
Як ви бачите, лише 48% дисперсії можуть бути захоплені першими двома ПК.
Графічні спостереження на першій площині, зроблені першими двома ПК, виявили три різні кластери з використанням ієрархічної агломераційної кластеризації (HAC) та кластеризації K-засобів. Ці 3 кластери виявились дуже актуальними для проблеми, що розглядається, і були також узгоджені з іншими висновками. Тому, за винятком того, що лише 48% дисперсії було захоплено, все інше було надзвичайно чудовим.
Один з моїх двох рецензентів сказав: не можна багато покладатися на ці висновки, оскільки лише 48% дисперсії можна пояснити, і це менше, ніж потрібно.
Питання
Чи є якесь необхідне значення, скільки дисперсії має бути зафіксовано PCA, щоб бути дійсним? Чи не залежить від знань про домен та використовуваної методології? Чи може хто-небудь судити про достоїнство всього аналізу лише на основі простого значення поясненої дисперсії?
Примітки
- Дані - це 11 змінних генів, виміряних за дуже чутливою методологією в молекулярній біології під назвою кількісна полімеразна ланцюгова реакція в реальному часі (RT-qPCR).
- Аналізи проводили за допомогою Р.
- Відповіді аналітиків даних, що базуються на особистому досвіді, що працює над проблемами реального життя в галузі мікромасивного аналізу, хіміометрії, спектрометричного аналізу тощо.
- Будь ласка, подумайте, якомога більше підтримуйте відповідь посиланнями.