Завантаження проти власних векторів у PCA: коли використовувати той чи інший?


67

При аналізі основних компонентів (PCA) ми отримуємо власні вектори (одиничні вектори) та власні значення. Тепер визначимо навантаження як

Loadings=EigenvectorsEigenvalues.

Я знаю, що власні вектори - це лише напрямки, а навантаження (як визначено вище) також включає дисперсію за цими напрямками. Але для свого кращого розуміння я хотів би знати, де я повинен використовувати навантаження замість власних векторів? Приклад був би ідеальним!

Я, як правило, бачив лише людей, які використовують власні вектори, але раз у раз вони використовують навантаження (як визначено вище), і тоді мені залишається відчуття, що я не дуже розумію різницю.

Відповіді:


66

У PCA ви розбиваєте коваріаційну (або кореляційну) матрицю на масштабну частину (власні значення) та частину напрямку (власні вектори). Потім ви можете наділити власні вектори масштабом: навантаження . Таким чином, завантаження стають порівнянними за величиною з коваріаціями / кореляціями, що спостерігаються між змінними, - тому що те, що було виведено з коваріації змінних, повертається назад - у вигляді коваріації між змінними та головними компонентами. Насправді, навантаження - це коваріації / кореляції між початковими змінними та одиницевими компонентами . Ця відповідь геометрично показує, що таке навантаження та які коефіцієнти асоціюють компоненти зі змінними в PCA або факторному аналізі.

Навантаження :

  1. Допоможе вам інтерпретувати основні компоненти чи фактори; Тому що вони є лінійними комбінованими вагами (коефіцієнтами), за допомогою яких одиничні масштабовані компоненти або фактори визначають або "завантажують" змінну .

    (Ейгенвектор - це лише коефіцієнт ортогонального перетворення чи проекції; він позбавлений "навантаження" в межах своєї величини. "Навантаження" - це (інформація про кількість) дисперсії, величини. ПК витягуються для пояснення дисперсії змінних. Власні значення відхилення (= пояснюються) ПК. Коли ми множимо власний вектор на квадратне значення eivenvalue, ми «завантажуємо» голий коефіцієнт на величину дисперсії. За допомогою цієї чесноти робимо коефіцієнт, який є мірою асоціації , мінливість.)

  2. Завантаження іноді після цього "повертаються" (наприклад, варимакс) для полегшення інтерпретації ( див. Також );

  3. Саме завантаження "відновлюють" початкову матрицю коваріації / кореляції (див. Також цю тему, де обговорюються нюанси PCA та FA в цьому відношенні);

  4. Хоча в PCA ви можете обчислити значення компонентів як із власних векторів, так і з навантажень, при факторному аналізі ви обчислюєте коефіцієнт підрахунків навантажень .

  5. І, перш за все, матриця завантаження є інформативною: її вертикальні суми квадратів є власними значеннями, відхиленнями компонентів, а горизонтальні суми квадратів - це частини варіацій змінних змінних, які "пояснюються" компонентами.

  6. Масштабне або стандартизоване завантаження - це навантаження, поділене на st змінної. відхилення; це співвідношення. (Якщо ваш PCA заснований на кореляції PCA, завантаження дорівнює масштабі, оскільки PCA на основі кореляції є PCA для стандартизованих змінних.) Переназначене завантаження у квадраті має значення внеску pr. компонент у змінну; якщо вона висока (близька до 1), змінна добре визначається лише цим компонентом.

Приклад обчислень, зроблених в PCA та FA, ви побачите .

Власні вектори - це одиничні навантаження; і вони є коефіцієнтами (косинусами) ортогонального перетворення (обертання) змінних в головні компоненти або назад. Тому з ними легко обчислити значення компонентів (не стандартизованих). Крім того, їх використання обмежене. Значення власного вектора у квадраті має значення внеску змінної в pr. компонент; якщо він високий (близький до 1), компонент добре визначається лише цією змінною.

Хоча власні вектори та навантаження є просто двома різними способами нормалізації координат одних і тих самих точок, що представляють стовпці (змінні) даних на біплоті , змішувати два терміни не годиться. Ця відповідь пояснила, чому. Дивіться також .


3
eigenvalues

1
Побічна примітка: У хіміометрії підрахунок балів за оригінальними даними має величезне значення, оскільки багато прогнозних моделей використовують обертання PCA (!) Для попередньої обробки, тому обмежене використання навантажень - це основне використання ІМХО для PCA.
cbeleites

2
@cbeleites, Не тільки можливо, що термінологічні конвенції PCA / FA можуть відрізнятися в різних областях (або в різному програмному забезпеченні чи книгах) - я констатую, що вони різняться. У психології та поведінці людини зазвичай "навантаження" - це те, що я позначаю назвою (навантаження дуже важливі в цих областях, оскільки інтерпретація запізнень триває, тоді як оцінки можуть бути зменшені, стандартизовані, і ніхто не цікавиться). З іншого боку, багато Rкористувачів на цьому веб-сайті називають власні вектори PCA "завантаженнями", які, можливо, походять з документації щодо функцій.
ttnphns

(продовження.) Найгірше те, що слово "навантаження" використовується в інших техніках (LDA, канонічні кореляції тощо), не точно в тому ж значенні, як у PCA. Отже, саме слово компрометоване. Я погоджуюся з @amoeba, який припускає, що його взагалі скасують і замінять статистично точними термінами, такими як "кореляції" або "коефіцієнти". З іншого боку, "власні вектори", схоже, обмежені розкладанням svd / eigen, а також деякими методами дим. скорочення не виконують їх взагалі або в класичній формі.
ttnphns

1
Ви повинні змішуватися. Коли ви правильно обчислюєте бали на ПК за допомогою завантажень, ви отримуєте просто стандартизовані компоненти. Ви не обчислюєте ці результати за тією ж формулою, що і з власними векторами; скоріше, ви повинні використовувати формули, описані у посиланні мого №4.
ttnphns

3

Здається, існує велика плутанина щодо навантажень, коефіцієнтів та власних векторів. Навантаження слів походить від факторного аналізу і стосується коефіцієнтів регресії матриці даних на коефіцієнти. Вони не є коефіцієнтами, що визначають фактори. Дивіться, наприклад, Мардію, Біббі та Кент або інші багатоваріантні підручники зі статистики.

Останніми роками слово навантаження використовується для позначення коефіцієнтів ПК. Тут здається, що він використовував для позначення коефіцієнтів, помножених на sqrt власних значень матриці. Це не такі величини, які зазвичай використовуються в PCA. Основні компоненти визначаються як сума змінних, зважених за коефіцієнтами одиниць норми. Таким чином, ПК має норму, рівну відповідній власній величині, яка, в свою чергу, дорівнює дисперсії, поясненій компонентом.

Саме в Факторному аналізі фактори повинні мати одиничну норму. Але FA і PCA абсолютно різні. Обертання коефіцієнта ПК дуже рідко робиться, оскільки це руйнує оптимальність компонентів.

У ФА фактори не визначені однозначно і можуть бути оцінені по-різному. Важливими величинами є навантаження (справжні) та спільності, які використовуються для дослідження структури коваріаційної матриці. PCA або PLS повинні використовуватися для оцінки компонентів.


2
Ця відповідь, правильна в конкретних аспектах (+1), зауважує, що як FA, так і PCA можна побачити і порівнянні (хоча й виразні) як прогнозування маніфестних змінних за факторами / компонентами (остання прийнята одиниця масштабується). Навантаження є коефіцієнтами цього прогнозу. Отже, завантаження використовуються і є дійсними термінами, що означає те саме, що і в полях FA, і в PCA.
ttnphns

3
Крім того, шкода, що деякі джерела (зокрема, документація R) недбало називають власні коефіцієнти "навантаженнями" - вони не містять у них навантаження .
ttnphns

Просто FA і PCA оцінюють іншу модель. У FA помилки є ортогональними, у PCA вони не є. Я не бачу великого сенсу в порівнянні результатів, якщо тільки хто не полює на модель. Завантаження - це стовпці матриці, Lяка використовується для запису коваріаційної матриці, як S = LL' + Cде Cдіагональна матриця. вони не мають нічого спільного з коефіцієнтами ПК.
Marco Stamazza

they have nothing to do with the PCs' coefficientsМи обчислюємо завантаження в PCA, як і в FA. Моделі різні, але значення навантажень однаково в обох методах.
ttnphns

0
In Factor Analysis (using PCA for extraction), we get orthonormal eigen vectors (unit vectors) and corresponding eigenvalues. Now, loadings are defined as 

Завантаження = Ортонормальні власні вектори⋅ Квадратний корінь (абсолютні значення власних властивостей) Тут ортонормальні власні вектори (тобто термін Ортонормальні власні вектори) надають напрямок, а термін Квадратний корінь (Абсолютні значення власних властивостей) надають значення.

Зазвичай люди кажуть, що знаки в навантаженнях не мають важливого значення, але важлива його величина. Але якщо ми повернемо напрямок одних власних векторів (зберігаючи знак інших власних векторів таким, яким вони є), то показники фактора будуть змінені. Отже, подальший аналіз буде суттєво вплинутий.

Я поки не зміг знайти задовільне рішення цієї неоднозначності.


0

Здається, в цьому питанні виникає деяка плутанина, тому я надам деякі спостереження та вказівку на те, де в літературі можна знайти відмінну відповідь.

Під - перше, PCA і факторний аналіз (ФА) є пов'язані. В основному, основні компоненти є ортогональними за визначенням, тоді як фактори - аналогічна сутність у ФА - не є. Простіше кажучи, основні компоненти охоплюють факторний простір довільним, але не обов'язково корисним способом, завдяки тому, що вони отримані з чистого ейгенаналізу даних. Фактори, з іншого боку, являють собою сутності реального світу, які є лише ортогональними (тобто некорельованими або незалежними) за збігом обставин.

Скажімо , ми беремо ті спостереження від кожного з л предметів. Вони можуть бути розташовані в матриці даних D, що має s рядків та l стовпців. D можна розкласти на матрицю оцінки S та завантажувальну матрицю L таким чином, що D = SL . S матиме рядки s , а L матиме l стовпці, другий вимір кожного з яких - кількість факторів n . Мета факторного аналізу - розкласти Dтаким чином, щоб виявити основні оцінки та фактори. Навантаження в L говорять нам частку кожного бала , які становлять спостереження в D .

У PCA L має власні вектори кореляційної або коваріаційної матриці D у якості своїх стовпців. Вони умовно розташовані у порядку зменшення відповідних власних значень. Значення n - тобто кількість значущих основних компонентів, які необхідно зберегти в аналізі, а отже, і кількість рядків L -, як правило, визначається за допомогою використання діаграми осінь власних значень або одного з численних інших методів, які можна знайти в література. Стовпці S у PCA утворюють самі n абстрактних основних компонентів. Значення n - основна розмірність набору даних.

Об'єктом факторного аналізу є перетворення абстрактних компонентів в значимі фактори за рахунок використання в перетворенні матриці Т , такі , що Д = СТТ -1 л . ( ST ) - перетворена матриця балів, а ( T -1 L ) - перетворена матриця завантаження.

Наведене пояснення приблизно відповідає поняттю Едмунда Р. Маліновського з його відмінного факторного аналізу з хімії . Я настійно рекомендую відкриття глав як вступ до теми.


Здається, ця відповідь має кілька проблем. По-перше, перевірте свої формули, будь ласка, чи вони невірні. По-друге, ви намагаєтеся обговорити відмінності між FA та PCA. Для цього у нас є окрема довга нитка в CV, тоді як поточна нитка стосується завантажень проти власних векторів, тому відповідь не відповідає. По-третє, ваша картина ФА спотворена, особливо у фразах, таких як "мета ФА - розкласти D" або "об'єкт ФА - перетворити абстрактні компоненти на значущі фактори".
ttnphns

Я вважаю, що розміщений мною матеріал є релевантним для обговорення в цій темі, і він пропонує одне пояснення взаємозв'язку між навантаженнями та власними векторами.
Метт Венхем

Моє дослідження з цього питання узагальнено в цій роботі: onlinelibrary.wiley.com/doi/10.1002/sia.740231303/full
Метт Венхем

Гаразд, можливо, ваш обліковий запис є спеціальним досі діючим - я не можу сказати, чи читаючи джерела, які ви пропонуєте. І все ж, я зауважу, що "взаємозв'язок" між навантаженнями та власними векторами в PCA - це все у його формулі, розміщеній у питанні; так що навряд чи є що "пояснити" (пояснюється має бути різною корисністю їх). Ще одне, що слід зазначити, що Q насамперед стосується PCA, а не FA. І, врешті-решт, не кожен метод ФА взагалі має справу з власними векторами, тоді як він обов'язково стосується навантажень.
ttnphns

Вибачте, я не думаю, що в моєму документі є загальнодоступна версія, хоча ви можете отримати доступ через Deepdyve.com з двотижневою пробною версією. Перша глава книги Маліновського доступна за посиланням вище. Це охоплює основи, не згадуючи про ейенаналіз. Я мушу визнати, що мені не було відомо про те, що факторний аналіз можна зробити без ейгенаналізу, як це застосовується варіант, який я використав - аналіз цільового фактора.
Метт Венхем

-1

Мене трохи бентежать ці назви, і я шукав у книзі під назвою "Статистичні методи в атмосферній науці", і це дало мені підсумок різноманітної термінології PCA, ось скріншоти в книзі, сподіваюся, що це допоможе.

введіть тут опис зображення

введіть тут опис зображення

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.