Як інтерпретувати навантаження PCA?


13

Читаючи про PCA, я натрапив на таке пояснення:

Припустимо, у нас є набір даних, де кожна точка даних являє собою одиничні бали учнів у математичному тесті, фізичному тесті, тесті на читання та тесті словникового запасу.

Ми знаходимо перші два основні компоненти, які фіксують 90% змінності даних та інтерпретують їх завантаження. Ми робимо висновок, що перший основний компонент являє собою загальну академічну здатність, а другий - контраст між кількісною здатністю та словесною здатністю.

У тексті зазначено, що навантаження PC1 і PC2 є для PC1 і ( 0,5 , 0,5 , - 0,5 , - 0,5 ) для PC2, і пропонується таке пояснення:(0.5,0.5,0.5,0.5)(0.5,0.5,0.5,0.5)

[T] перший компонент пропорційний середньому балу, а другий компонент вимірює різницю між першою парою балів та другою парою балів.

Я не в змозі зрозуміти, що означає це пояснення.


7
Чомусь відповідь @ ttnphns поширюється на багато математичних деталей, але я думаю, що оригінальне запитання було справді простим: чому вектор завантаження для PC1 (0,5, 0,5, 0,5, 0,5) означає, що перший компонент "пропорційний середньому балу" "? Ну, відповідь полягає в тому, що навантаження є [пропорційними] коефіцієнтам в лінійній комбінації оригінальних змінних, що становить PC1. Отже, ваш перший PC1 - це сума всіх чотирьох змінних у 0,5 рази. Що означає, що вона пропорційна середньому серед чотирьох змінних. І схоже з PC2. Я думаю, це відповідає на початкове запитання.
амеба каже, що повернеться до Моніки

@amoeba - Чи знаєте ви, як важко натрапити на таке просте пояснення навантажень. Так чи інакше, скрізь це переповнює жовч жаргону всюди мене, перш ніж я вирішу перейти до наступного пояснення на Google. Дякую!
MiloMinderbinder

Відповіді:


13

Навантаження (яке не слід плутати з власними векторами) мають такі властивості:

  1. Їх суми квадратів у межах кожного компонента - це власні значення (відхилення компонентів).
  2. Навантаження - це коефіцієнти в лінійній комбінації, що передбачає зміну (стандартизованими) компонентами.

A

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

У цьому випадку обидва власні значення однакові. Це рідкісний випадок у реальному світі, він говорить, що PC1 і PC2 мають однакову пояснювальну "силу".

Nx2CX^=CAAX^

A4x4B=(A1)B=Adiag(eigenvalues)1=(A+)diag(eigenvalues)являє собою квадратну діагональну матрицю з власними значеннями на її діагоналі, а +надпис позначає псевдоінверс. У вашому випадку:

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

XNx4C=XBC

PC1 = 0,5 * X1 + 0,5 * X2 + 0,5 * X3 + 0,5 * X4 ~ (X1 + X2 + X3 + X4) / 4

"перший компонент пропорційний середньому балу"

PC2 = 0,5 * X1 + 0,5 * X2 - 0,5 * X3 - 0,5 * X4 = (0,5 * X1 + 0,5 * X2) - (0,5 * X3 + 0,5 * X4)

"другий компонент вимірює різницю між першою парою балів і другою парою балів"

B=A


B=Adiag(eigenvalues)1B=R1ARбудучи коваріаційною (або кореляційною) матрицею змінних. Остання формула походить безпосередньо з теорії лінійної регресії. Дві формули є еквівалентними лише в контексті PCA. При факторному аналізі їх немає, а для обчислення балів факторів (які завжди є приблизними у ФА) слід покладатися на другу формулу.


Відповідні мої відповіді:

Більш детально про навантаження проти власних векторів .

Як обчислюються основні бали компонентів та коефіцієнти .


2
Якщо 2 з 4 компонентів становлять 90% змінності, то як їх власні значення дорівнюють 2?
Нік Кокс

Нік, я вважаю це питанням до ОП. Він не наводив даних або матриці коваріації / кореляції. Все, що ми мали від нього, - це (досить нереально) завантажувальна матриця з двох перших ПК.
ttnphns

3
4×44150%90%
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.