Як "Основна теорія факторного аналізу" застосовується до PCA, або як визначаються навантаження PCA?


14

Зараз я переживаю слайд, який я маю для "факторного аналізу" (PCA, наскільки я можу сказати).

У ній виведена "фундаментальна теорема факторного аналізу", яка стверджує, що матрицю кореляції даних, що надходять в аналіз ( ), можна відновити за допомогою матриці факторних навантажень ( A ):RA

R=AA

Це, однак, мене бентежить. У PCA матриця "факторних навантажень" задається матрицею власних векторів матриці коваріації / кореляції даних (оскільки ми припускаємо, що дані були стандартизовані, вони однакові), при цьому кожен власний вектор масштабується мати довжина одна. Ця матриця є ортогональною, при цьому = I , який в загальному випадку НЕ дорівнює R .АА=ЯR


Окрім відповіді @ amoeba , подивіться у моїй відповіді, де додається термінологічна неоднозначність. Я не рекомендую викликати матрицю власних векторів A(які є навантаженнями) з ясності. Матриця власного вектора (у правій частині) зазвичай позначена міткою V(тому що R=USV'по svd), а не A. Інша еквівалентна назва (походить від термінології біплот) для власних векторів - «стандартні координати», а для навантажень - «головні координати».
ttnphns

("стандартні координати" - тому що інерція або масштаб власних значень є одиничною величиною при надаванні їх; "головні координати" - тому що це оригінальна повна величина при надаванні їх.)
ttnphns

Відповіді:


17

Це розумне запитання (+1), яке випливає з термінологічної неоднозначності та розгубленості.

У контексті PCA люди часто називають основні осі (власні вектори матриці коваріації / кореляції) "навантаженнями". Це неохайна термінологія. Те, що слід називати "завантаженнями" в PCA, - це головні осі, масштабовані квадратними коренями відповідних власних значень. Тоді теорема, яку ви посилаєтесь, буде дотримана.

Дійсно, якщо власне-розкладання кореляційної матриці є

R=VSV
де V є власними векторами (головними осями) та S є діагональною матрицею власних значень, і якщо ми визначимо навантаження як
А=VS1/2,
тоді це можна легко побачити
R=АА.
Більше того, найкращий рейтинг-r наближення до матриці кореляції задається першим r Навантаження PCA:
RАrАr.

Будь ласка, дивіться мою відповідь тут, щоб отримати докладнішу інформацію про реконструкцію коваріаційних матриць за допомогою факторного аналізу та навантаження PCA.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.