У випадку PCA "дисперсія" означає сумарну дисперсію або багатоваріантну мінливість або загальну мінливість або загальну мінливість . Нижче наведена коваріаційна матриця деяких 3 змінних. Їх відхилення знаходяться по діагоналі, а сума 3 значень (3.448) - загальна мінливість.
1.343730519 -.160152268 .186470243
-.160152268 .619205620 -.126684273
.186470243 -.126684273 1.485549631
Тепер PCA замінює оригінальні змінні новими змінними, які називаються основними компонентами, які є ортогональними (тобто вони мають нульові коваріації) і мають відхилення (звані власні значення) у порядку зменшення. Отже, матриця коваріації між основними компонентами, витягнутими з вищезазначених даних, така:
1.651354285 .000000000 .000000000
.000000000 1.220288343 .000000000
.000000000 .000000000 .576843142
Зауважимо, що діагональна сума все ще становить 3,448, що говорить про те, що всі 3 компоненти припадають на всю багатовимірну мінливість. Перший головний компонент становить або "пояснює" 1,665 / 3,448 = 47,9% від загальної мінливості; другий пояснює 1,220 / 3,448 = 35,4%; 3-й пояснює .577 / 3.448 = 16.7%.
Отже, що вони означають, коли кажуть, що " PCA максимізує дисперсію " чи " PCA пояснює максимальну дисперсію "? Це, звичайно, не те, що він знаходить найбільшу дисперсію серед трьох значень 1.343730519 .619205620 1.485549631
, ні. PCA знаходить у просторі даних розмірність (напрямок) з найбільшою дисперсією від загальної дисперсії 1.343730519+.619205620+1.485549631 = 3.448
. Ця найбільша дисперсія була б 1.651354285
. Потім він знаходить розмір другої за величиною дисперсії, ортогональної першої, із решти 3.448-1.651354285
загальної дисперсії. Цей другий вимір буде 1.220288343
дисперсією. І так далі. Останній розмір, що залишився - це .576843142
дисперсія. Дивіться також "Pt3" тут і чудову відповідь тут пояснюючи, як це робилося більш детально.
Математично PCA виконується за допомогою лінійних функцій алгебри, званих власним розкладанням або svd-розкладанням. Ці функції одразу повернуть вам усі власні значення 1.651354285 1.220288343 .576843142
(та відповідні власні вектори) ( див. , Див. ).