Які основні відмінності між виконанням аналізу основних компонентів (PCA) на кореляційній матриці та на матриці коваріації? Чи дають вони однакові результати?
Які основні відмінності між виконанням аналізу основних компонентів (PCA) на кореляційній матриці та на матриці коваріації? Чи дають вони однакові результати?
Відповіді:
Ви схильні використовувати матрицю коваріації, коли масштаби змінних схожі, а матрицю кореляції, коли змінні знаходяться на різних масштабах.
Використання кореляційної матриці еквівалентно стандартизації кожної зі змінних (означає середнє 0 та стандартне відхилення 1). Загалом, PCA з стандартизацією та без неї дасть різні результати. Особливо, коли ваги різні.
Як приклад, подивіться цей heptathlon
набір даних R. Деякі змінні мають середнє значення близько 1,8 (стрибок у висоту), тоді як інші змінні (пробіг 800 м) - близько 120.
library(HSAUR)
heptathlon[,-8] # look at heptathlon data (excluding 'score' variable)
Це виводи:
hurdles highjump shot run200m longjump javelin run800m
Joyner-Kersee (USA) 12.69 1.86 15.80 22.56 7.27 45.66 128.51
John (GDR) 12.85 1.80 16.23 23.65 6.71 42.56 126.12
Behmer (GDR) 13.20 1.83 14.20 23.10 6.68 44.54 124.20
Sablovskaite (URS) 13.61 1.80 15.23 23.92 6.25 42.78 132.24
Choubenkova (URS) 13.51 1.74 14.76 23.93 6.32 47.46 127.90
...
Тепер давайте зробимо PCA для коваріації та кореляції:
# scale=T bases the PCA on the correlation matrix
hep.PC.cor = prcomp(heptathlon[,-8], scale=TRUE)
hep.PC.cov = prcomp(heptathlon[,-8], scale=FALSE)
biplot(hep.PC.cov)
biplot(hep.PC.cor)
Зауважте, що в коваріації PCA переважає run800m
і javelin
: PC1 майже дорівнює run800m
(і пояснює дисперсії), а PC2 майже дорівнює javelin
(разом вони пояснюють ). PCA за кореляцією є набагато більш інформативним і виявляє певну структуру даних та зв’язки між змінними (але зауважте, що пояснені відхилення падають до та ).
Зауважте також, що відсторонені особи (у цьому наборі даних) є позашляховиками незалежно від того, чи використовується матриця коваріації чи кореляції.
Бернард Флюрі у своїй чудовій книзі, що представляє багатоваріантний аналіз, описав це як властивість основних компонентів. Це насправді гірше, ніж вибір між кореляцією чи коваріацією. Якщо ви змінили одиниці (наприклад, галони, дюйми тощо в США та літри, сантиметри в стилі ЄС), ви отримаєте істотно різні прогнози даних.
Аргумент проти автоматичного використання кореляційних матриць полягає в тому, що це досить жорстокий спосіб стандартизації ваших даних. Проблема з автоматичним використанням матриці коваріації, що дуже очевидно з даними гептаталону, полягає в тому, що змінні з найбільшою дисперсією будуть домінувати над першим головним компонентом (властивістю максимізації дисперсії).
Тож "найкращий" метод, що використовується, базується на суб'єктивному виборі, ретельному обдумуванні та певному досвіді.
НЕТРАНСФОРМОВАНІ (RAW) ДАНІ: Якщо у вас є змінні з широко різними масштабами для необроблених, неперероблених даних, тобто споживання калорій на день, експресія генів, ІФА / Luminex в одиницях ug / dl, нг / дл, виходячи з кількох порядків величиною експресії білка, потім використовують кореляцію як вхід до PCA. Однак якщо всі ваші дані ґрунтуються, наприклад, на експресії генів з однієї платформи з аналогічним діапазоном і масштабом, або ви працюєте з доходами активів власного капіталу, то використання кореляції викине величезну кількість інформації.
Використання балів VDW дуже популярне в генетиці, де багато змінних перетворюються на бали VDW, а потім вводяться в аналізи. Перевага використання балів VDW полягає в тому, що у даних видаляються перекоси та зовнішні ефекти, і вони можуть бути використані, якщо метою є аналіз за нормами нормальності - і кожна змінна повинна бути чисто стандартною, звичайною, розподіленою без косості. або пережили
Загальна відповідь полягає в тому, щоб припустити, що коваріація використовується, коли змінні знаходяться в одній шкалі, і кореляція, коли їх масштаби різні. Однак це справедливо лише тоді, коли масштаб змінних не є фактором. В іншому випадку, чому хто-небудь коли-небудь робити коваріаційний PCA? Було б безпечніше завжди виконувати кореляційний PCA.
Уявіть, що ваші змінні мають різні одиниці вимірювання, такі як метри та кілограми. Не має значення, чи використовуєте ви метри або сантиметри в цьому випадку, тому ви можете стверджувати, що слід використовувати матрицю кореляції.
Розглянемо зараз чисельність населення у різних штатах. Одиниці виміру однакові - кількість (кількість) людей. Тепер ваги можуть бути різними: у штаті постійного струму 600К, а у ЦА - 38 млн. Осіб. Чи варто тут використовувати кореляційну матрицю? Це залежить. У деяких додатках ми хочемо відкоригувати розмір штату. Використання матриці коваріації є одним із способів побудови факторів, що враховують розмір стану.
Отже, моя відповідь - використовувати коваріаційну матрицю, коли важлива дисперсія вихідної змінної, а також використовувати кореляцію, коли її немає.
Я особисто вважаю дуже цінним обговорювати ці варіанти з огляду на модель аналізу максимальної ймовірності основних компонентів (MLPCA) [1,2]. У MLPCA застосовується масштабування (або навіть обертання) таким чином, що похибки вимірювання вимірюваних змінних є незалежними та розподіляються відповідно до стандартного нормального розподілу. Це масштабування також відоме як максимальне масштабування ймовірності (MALS) [3]. У деяких випадках модель PCA та параметр, що визначає масштабування / обертання MALS, можна оцінювати разом [4].
Для інтерпретації PCA на основі кореляції та коваріації можна стверджувати, що:
Як вже було підкреслено вище, остаточний вибір залежить від ваших припущень. Крім того, корисність будь-якої конкретної моделі також залежить від контексту та мети вашого аналізу. Процитуйте Джорджа EP Box: "Усі моделі помиляються, але деякі корисні".
[1] Wentzell, PD, Andrews, DT, Hamilton, DC, Faber, K., and Kowalski, BR (1997). Аналіз максимальної ймовірності основного компонента. Журнал хіміометрії, 11 (4), 339-366.
[2] Wentzell, PD, & Lohnes, MT (1999). Максимально можливий аналіз основного компонента з корельованими похибками вимірювання: теоретичні та практичні міркування. Хімометрія та інтелектуальні лабораторні системи, 45 (1-2), 65-85.
[3] Hoefsloot, HC, Verouden, MP, Westerhuis, JA, & Smilde, AK (2006). Максимальне масштабування ймовірності (MALS). Журнал хіміометрії, 20 (3–4), 120–127.
[4] Нарасимхан, С., Шах, SL (2008). Ідентифікація моделі та оцінка коефіцієнтної матриці помилок за шумними даними за допомогою PCA. Практика контрольної техніки, 16 (1), 146-155.
[5] Тіпінг, М.Є. та Бішоп, CM (1999). Імовірнісний аналіз основних компонентів. Журнал Королівського статистичного товариства: Серія B (Статистична методологія), 61 (3), 611-622.
Прямо і просто: якщо ваги схожі, використовуйте cov-PCA, якщо ні, використовуйте corr-PCA; інакше вам краще захистити не. Якщо ви сумніваєтесь, використовуйте F-тест на рівність дисперсій (ANOVA). Якщо вона не відповідає F-тесту, використовуйте corr; в іншому випадку використовуйте cov.
Аргументи на основі шкали (для змінних, виражених в одних і тих же фізичних одиницях) здаються досить слабкими. Уявіть набір змінних (безрозмірних) змінних, стандартні відхилення яких змінюються між 0,001 та 0,1. У порівнянні зі стандартизованим значенням 1, вони обидва здаються «малими» і порівнянними рівнями коливань. Однак, коли ви виражаєте їх в децибелі, це дає діапазон -60 дБ проти -10 і 0 дБ відповідно. Тоді, мабуть, тоді це було б класифіковане як "великий діапазон", особливо якщо ви включаєте стандартне відхилення, близьке до 0, тобто мінус нескінченність дБ.
Моя пропозиція полягала б у тому, щоб зробити ВІДКР на основі кореляції та коваріації. Якщо ці двоє дають однакові (або дуже схожі, що б це не означало) ПК, то можна переконатись, що ви отримали відповідь, що має сенс. Якщо вони дають дуже різні ПК, не використовуйте PCA, оскільки два різних відповіді на одну проблему не є розумним способом вирішення питань.