Вибір "відповідної" кількості компонентів в PCA може бути виконаний елегантно за допомогою Паралельного аналізу (РА) Горна. Дослідження показують, що цей критерій послідовно перевершує такі великі правила, як критерій ліктя або правило Кайзера. Пакет R "paran" має реалізацію ПА, що вимагає лише декількох клацань миші.
Звичайно, скільки компонентів ви збережете, залежить від цілей скорочення даних. Якщо ви хочете лише зберегти дисперсію, яка є "значущою", ПА забезпечить оптимальне зменшення. Якщо ви хочете звести до мінімуму втрату інформації на вихідні дані, вам слід зберегти достатню кількість компонентів для покриття 95% поясненої дисперсії. Це, очевидно, збереже набагато більше компонентів, ніж ПА, хоча для високомірних наборів даних зменшення розмірності все ще буде значним.
Останнє зауваження про PCA як проблему "вибору моделі". Я не повністю згоден з відповіддю Петра. Існує ряд робіт, які переформулювали PCA як проблему типу регресії, такі як Sparse PCA, Sparse Probabilistic PCA або ScotLASS. У цих рішеннях PCA, заснованих на моделі, навантаження - це параметри, які можна встановити на 0 при відповідних термінах штрафу. Імовірно, в цьому контексті можна було б також розрахувати статистику типу AIC або BIC для розглянутої моделі.
Цей підхід теоретично міг би включати модель, де, наприклад, два ПК є необмеженими (усі завантаження не нульові), порівняно з моделлю, де PC1 необмежений і PC2 має всі завантаження, встановлені 0. Це було б еквівалентно висновку про те, чи є PC2 зайвим в цілому.
Список літератури :
- Дінно, А. (2012). paran: Тест Горна на основні компоненти / фактори. Версія пакета R 1.5.1. http://CRAN.R-project.org/package=paran
- Horn JL 1965 р. Обґрунтування та тест на кількість факторів факторного аналізу. Психометрія . 30: 179–185
- Hubbard, R. & Allen SJ (1987). Емпіричне порівняння альтернативних методів вилучення основних компонентів. Журнал бізнес-досліджень, 15 , 173-190.
- Zwick, WR & Velicer, WF 1986. Порівняння п’яти правил для визначення кількості компонентів, які потрібно зберегти. Психологічний вісник. 99 : 432–442