Методи обчислення факторних балів, а що таке матриця «коефіцієнт оцінки» в PCA або факторному аналізі?


20

Як я розумію, в PCA на основі кореляцій ми отримуємо факторні (= головний компонент в даному випадку) навантаження, які є не що інше, як кореляції між змінними та факторами. Тепер, коли мені потрібно генерувати факторні бали в SPSS, я можу безпосередньо отримати факторні бали кожного респондента за кожен фактор. Я також зауважував, що якщо я помножую " матрицю коефіцієнтів коефіцієнтів " (як виробляється SPSS) із стандартизованими оригінальними змінними, я отримую ті ж результати коефіцієнтів, що й отримані з SPSS.

Чи можете мені хтось допомогти зрозуміти, як "обчислюється матриця коефіцієнта коефіцієнта" чи "матриця коефіцієнта оцінки коефіцієнта" - за допомогою якої я можу обчислити коефіцієнт чи бали компонентів? Як різняться різні методи оцінки коефіцієнтів обчислення на цій матриці?


1
Формула наведена, наприклад, тут stats.stackexchange.com/a/92512/3277 .
ttnphns

@amoeba, якщо хтось робить PCA, слово "коефіцієнт" означає "компонентний бал", вони є рівнозначними. Дивіться нижню частину вищезазначеної відповіді - у моделі PCA, формула, яка найчастіше використовується для обчислення балів факторів у FA, дає точні (стандартизовані) бали компонентів.
ttnphns

2
SPSS відображає ви матриця коефіцієнтів , а також зберігає (стандартизовані) оцінки , як нові змінні, що додає їх в наборі даних вихідних змінних . OP - я думаю - стандартизований а потім культивований, . І, вуаля, саме SPSS додав до набору даних! Отже, питання ОП полягає в тому, що Вау! далі за тим, як "як було обчислено?". X X X B BBXXXBB
ttnphns

@ttnphs ви правильно розумієте, що я мав на увазі. Але моя проблема полягає в тому, що я припускав, що якщо я використовую XB для прогнозування факторного сокретування кожного спостереження, то B повинно було бути завантаженим фактором, але в SPSS, це "матриця коефіцієнтів коефіцієнта", а не "обертається факторне завантаження", саме тому Я хотів зрозуміти взаємозв'язок або різницю між "обертається коефіцієнтом завантаження" та "матрицею коефіцієнта коефіцієнта".
Kartikeya Pandey

Оскільки я зрозумів за посиланням, я просто хочу бути впевненим один раз, якщо A повертається факторним завантаженням, то (Зворотний (A)) '- це "матриця коефіцієнтів коефіцієнта", яка також може бути обчислена за допомогою формули A⋅diag. Зворотна ((власні значення))
Kartikeya Pandey

Відповіді:


25

Методи обчислення балів коефіцієнтів / компонентів

Після серії коментарів я вирішив нарешті видати відповідь (виходячи з коментарів та іншого). Йдеться про обчислення балів компонентів у PCA та факторних балів при факторному аналізі.

Фактор / оцінки компонентів дані F = X B , де Х є аналізованих змінними ( центровані , якщо аналіз РСА / фактора був заснований на коваріації або Z-стандартизовані , якщо воно було засноване на кореляції). B - матриця коефіцієнта коефіцієнта / компонента (або ваги) . Як можна оцінити ці ваги?F^=XBXB

Позначення

-матриця змінних (позиційних) кореляцій або коваріацій, залежно від того, що було проаналізовано фактором / PCA.Rp x p

-матриця навантаження фактора / компонента. Це можуть бути вантажі після видобутку (часто також позначаються А ), після чого торці є ортогональними або практично так, або навантаження після обертання, ортогональні або косі. Якщо обертання булокосим, воно повинно бутинавантаженням пошаблону.Pp x mA

-матриця співвідношень факторів / компонентів після їх (навантажень) косого обертання. Якщо обертання або ортогональне обертання не здійснювалося, цематрицяідентичності.Cm x m

-наведена матриця відтворюваних кореляцій / коваріації,=РСР'(=РР'для ортогональних рішень), він містить спільності по діагоналі.R^p x p=PCP=PP

-діагональна матриця однознач (унікальність + спільність = діагональний елемент R ). Тут я використовую "2" як індекс, замість суперскрипту ( U 2 ) для зручності для читання у формулах.U2p x pRU2

-повна матриця кореляцій відтворених / коваріації, = R + U 2 .Rp x p=R^+U2

- псевдоінверсія деякої матриці M ; якщо M повнорозрядний, M + = ( M M ) - 1 M .M+MMM+=(MM)1M

- для деякої квадратної симетричної матриці M її підняття до p o w e r дорівнює ейгендекомпозиції H K H = M , піднесення власних значень до потужності і складання назад: M p o w e r = H K p o w e r H .MpowerMpowerHKH=MMpower=HKpowerH

Грубий метод обчислення балів коефіцієнта / компонента

Цей популярний / традиційний підхід, який іноді називають Cattell's, є просто усередненням (або підсумовуванням) значень елементів, завантажених одним і тим же фактором. Математично вона зводиться до установки ваг в обчисленні балів F = X B . Існує три основні версії підходу: 1) використовувати навантаження такими, якими вони є; 2) Діхотомізуйте їх (1 = завантажений, 0 = не завантажений); 3) Використовуйте навантаження такими, якими вони є, але нульові навантаження, менші за деякий поріг.B=PF^=XB

Часто при такому підході, коли елементи знаходяться в одній шкалі одиниці, значення використовуються просто необробленими; хоча і не порушувати логіку факторингу, краще використовувати X, оскільки він увійшов до факторингу - стандартизований (= аналіз кореляцій) або по центру (= ​​аналіз коваріацій).XX

На мою думку, головним недоліком грубого методу розрахунку коефіцієнтів / компонентів є те, що він не враховує кореляцій між завантаженими елементами. Якщо предмети, завантажені коефіцієнтом, щільно співвідносяться, а один завантажений сильніше, ніж інший, то останні можна вважати молодшим дублікатом і його вагу можна зменшити. Вдосконалені методи роблять це, але грубий метод не може.

Грубі бали, звичайно, легко обчислити, оскільки інверсія матриці не потрібна. Перевага грубого методу (пояснення, чому він все ще широко використовується, незважаючи на доступність комп'ютерів), полягає в тому, що він дає більш стійкі показники від вибірки до вибірки, коли відбір проб не є ідеальним (у сенсі репрезентативності та розміру) або елементи для аналіз був недостатньо підібраний. Напрошуючи один документ: "Метод підрахунку сум може бути найбажанішим, коли ваги, які використовуються для збору оригінальних даних, не перевірені та досліджувані, мало підтверджують достовірність чи достовірність або взагалі не мають їх". Крім того , він не вимагає розуміння "фактора" обов'язково як одновимірної латентної сутності, як цього вимагає модель факторного аналізу ( див. , Див.). Ви можете, наприклад, поняти фактор як сукупність явищ - тоді підсумовувати значення предметів розумно.

Вдосконалені методи обчислення балів коефіцієнтів / компонентів

Ці методи - це те, що роблять аналітичні пакети факторів. Вони оцінюють різними методами. Хоча навантаження A або P - це коефіцієнти лінійних комбінацій для прогнозування змінних за факторами / компонентами, B - коефіцієнти для обчислення балів коефіцієнта / компонента з змінних.BAPB

Оцінки , розраховані з допомогою масштабируются: вони мають відхилення , рівні або близькі до 1 (стандартизований або поблизу стандартизованим) - не істинний коефіцієнт відхилення (що дорівнює сумі квадратів структурних навантажень см Виноска 3 тут ). Отже, коли вам потрібно надати бали коефіцієнтів з істинною дисперсією коефіцієнта, помножте бали (стандартизуючи їх на ст.дев. 1) на квадратний корінь цієї дисперсії.B

Ви можете зберегти з аналізу , проведеного, щоб бути в змозі обчислити оцінки для нових найближчих спостережень X . Також B може бути використаний для зважування предметів, що складають шкалу анкети, коли шкала розробляється або підтверджується факторним аналізом. (У квадраті) коефіцієнти B можна інтерпретувати як внески предметів у фактори. Коефіцієнти можуть бути стандартизовані так, як коефіцієнт регресії стандартизований β = b σ i t e mBXBB (деσfactor=1) для порівняння внесків предметів з різними відхиленнями.β=bσitemσfactorσfactor=1

Дивіться приклад, що показує обчислення, зроблені в PCA та FA, включаючи обчислення балів з матриці коефіцієнтів балів.

На перших двох малюнках тут представлено геометричне пояснення навантаження '(як перпендикулярні координати) та коефіцієнти балів b ' (координати перекосу) у налаштуваннях PCA .ab

Тепер до вдосконалених методів.

Методи

Розрахунок в PCAB

Коли навантаження компонентів витягується, але не обертається, , де L - діагональна матриця, що складається з власних значень; ця формула означає просто ділення кожного стовпця А на відповідне власне значення - дисперсію компонента.B=AL1LmA

Рівнозначно . Ця формула застосовується також для компонентів (навантажень), обернених, ортогонально (таких як varimax) або косо.B=(P+)

Деякі методи, що використовуються в факторному аналізі (див. Нижче), якщо застосовуються в рамках PCA, повертають той же результат.

Обчислювані бали компонентів мають відхилення 1 і вони є справжніми стандартизованими значеннями компонентів .

Те, що в статистичному аналізі даних називається матрицею коефіцієнта головного компонента , і якщо воно обчислюється з повної, а не з якоюсь обертовою матрицею завантаження, то в машинній навчальній літературі часто позначають матрицю відбілювання (на основі PCA) , а стандартизованими основними компонентами є визнано "побіленими" даними.Bp x p

Розрахунок у загальному факторному аналізіB

В відміну від компонентів оцінки, фактор оцінки не є і неточним ; вони є лише наближенням до невідомих справжніх значень факторів. Це тому, що ми не знаємо значень спільності чи унікальності на рівні випадку, - оскільки фактори, на відміну від компонентів, є зовнішніми змінними, відокремленими від маніфестних та мають власний, невідомий нам розподіл. Що є причиною невизначеності цього фактора . Зауважимо, що проблема невизначеності логічно не залежить від якості факторного рішення: наскільки фактор є істинним (відповідає латентному, що генерує дані у популяції) - це інше питання, ніж те, наскільки реальними є результати респондентів (чи точні оцінки) вилученого фактора).F

Оскільки бали факторів є наближеннями, існують альтернативні методи їх обчислення та конкурують.

Метод регресії або методу Терстона або Томпсона для оцінки балів факторів задається , де S = P C - матриця структурних навантажень (для рішень ортогональних факторів ми знаємо A = P = S ). Основа методу регресії - у виносці 1 .B=R1PC=R1SS=PCA=P=S1

Примітка. Ця формула для може бути використана і для PCA: вона дасть у PCA такий же результат, як і формули, наведені в попередньому розділі.B

У FA (не PCA) регресійно обчислені показники коефіцієнтів виявляться не зовсім «стандартизованими» - матимуть відхилення не 1, але рівні регресування цих балів змінними. Це значення можна інтерпретувати як ступінь визначення фактора (його справжніх невідомих значень) змінними - R-квадратом прогнозування ними реального фактора, а метод регресії максимально збільшує його, - "обгрунтованість" обчислених балів. На малюнку2показана геометрія. (Зверніть увагу, щоSS r e g rSSregr(n1)2 буде дорівнює дисперсії балів для будь-якого вдосконаленого методу, але лише для методу регресії ця кількість буде дорівнює частці визначення справжнього f. значення за f. бали.)SSregr(n1)

Як варіант методу регресії можна використовувати замість R у формулі. Це обґрунтовано на підставі того, що в хорошому факторному аналізі R і R дуже схожі. Однак, коли їх немає, особливо коли кількість факторів менше, ніж справжня чисельність населення, метод дає сильний ухил у балах. І не слід використовувати цей метод "відтвореної регресії R" за допомогою PCA.RRRRm

Метод PCA , також відомий як Хорста (Mulaik) або ідеального (ized) змінного підходу (Harman). Це метод регресії з R замість R в його формулі. Неважко показати, що формула тоді зводиться до B = ( P + ) (і так так, нам фактично не потрібно з цим знати C ). Оцінки за коефіцієнтами обчислюються так, як якщо б вони були складовими.R^RB=(P+)C

[Етикетка «ідеалізована змінний» походить від того факту , що , оскільки в відповідно до коефіцієнта або компонентою моделі передбаченої частиною змінних є Й = Р Р ' , то F = ( Р + ) ' X , але підставити X для невідомого (ідеально) Х , щоб оцінити F як рахунок F ; тому ми "ідеалізуємо" X. ]X^=FPF=(P+)X^XX^FF^X

Зверніть увагу, що цей метод не передає бали компонентів PCA для факторних балів, оскільки використовувані навантаження не є навантаженнями PCA, а факторним аналізом '; тільки що обчислювальний підхід для балів дзеркал, що в PCA.

Метод Бартлетта . Тут . Цей метод прагне звести до мінімуму для кожного респондента різноманітні фактори ("помилки"). Варіанти результативних результатів загального коефіцієнта не будуть рівними і можуть перевищувати 1.B=(PU21P)1PU21p

Метод Андерсона-Рубіна був розроблений як модифікація попереднього. . Варіантність балів буде рівно 1. Однак цей метод призначений лише для рішень ортогональних факторів (для косих рішень він дасть ще ортогональні оцінки).B=(PU21RU21P)1/2PU21

Метод Макдональда-Андерсона-Рубіна . Макдональд поширив Андерсона-Рубіна на рішення косих факторів. Тож ця більш загальна. За допомогою ортогональних факторів воно фактично зводиться до Андерсона-Рубіна. Деякі пакети, ймовірно, можуть використовувати метод Макдональдса, називаючи його "Андерсон-Рубін". Формула: , де G і Н отримані в СВД ( R 1 / 2 U - 1 2 P C 1 / 2 )B=R1/2GHC1/2GH . (Звичайно,використовуйте лише першістовпці в G ).svd(R1/2U21PC1/2)=GΔHmG

Метод Гріна . Використовує ту ж формулу , як McDonald-Андерсона-Рубін, але і Н обчислюються як: СВД ( R - 1 / 2 Р С 3 / 2 ) = G Δ H ' . ( Звичайно, використовуйте лише перші стовпці в G ). Метод Гріна не використовує інформацію про комунальні (або унікальні) характеристики. Він підходить і зближується з методом Макдональда-Андерсона-Рубіна, оскільки фактичні спільноти змінних стають все більш рівними. І якщо застосувати до завантажень PCA, Green повертає бали компонентів, як метод рідного PCA.GHsvd(R1/2PC3/2)=GΔHmG

Метод Крийнен та ін . Цей метод є узагальненням, яке об'єднує обидві попередні два єдиною формулою. Це, ймовірно, не додає нових чи важливих нових функцій, тому я не розглядаю це.

Порівняння між очищеними методами .

  • Метод регресії забезпечує максимальну кореляцію між балами фактора та невідомими справжніми значеннями цього фактора (тобто максимізує статистичну обґрунтованість ), але бали дещо упереджені і вони дещо неправильно корелюють між факторами (наприклад, вони корелюють навіть тоді, коли фактори в розчині є ортогональними). Це найменші квадрати.

  • Метод PCA також є найменшими квадратами, але з меншою статистичною достовірністю. Вони швидше обчислюються; У наш час вони не часто використовуються в факторному аналізі через комп'ютери. (У PCA цей метод є рідним та оптимальним.)

  • Оцінки Бартлетта є неупередженими оцінками дійсних значень фактора. Оцінки обчислюються, щоб точно співвідносити справжні, невідомі значення інших факторів (наприклад, не співвіднести їх з ортогональним рішенням, наприклад). Тим НЕ менше, вони по- , як і раніше можуть корелювати неакуратно з фактором оцінкою обчисленої для інших факторів. Це максимально вірогідні (за багатовимірною нормальністю припущення ) оцінки.X

  • Оцінки Андерсона-Рубіна / Макдональда-Андерсона-Рубіна та Гріна називаються збереженням кореляції, оскільки обчислюються, щоб точно співвідносити з коефіцієнтами інших факторів. Кореляції між показниками коефіцієнтів дорівнюють співвідношенням факторів у розчині (так, наприклад, в ортогональному розчині, показники будуть абсолютно некорельовані). Але бали дещо упереджені і їх достовірність може бути скромною.

Перевірте також цю таблицю:

enter image description here

[Примітка для користувачів SPSS: Якщо ви використовуєте PCA (метод вилучення "основних компонентів"), але запитуєте коефіцієнт запиту, окрім методу "Регресія", програма не враховує запит і замість цього обчислює "Регресійні" бали (які є точними бали компонентів).]

Список літератури

  1. Гріс, Джеймс В. Обчислювальні та оцінювальні показники факторів // Психологічні методи 2001, Вип. 6, № 4, 430-450.

  2. DiStefano, Christine та ін. Розуміння та використання показників факторів // Практична оцінка, дослідження та оцінка, т. 14, № 20

  3. десять Берже, Джос МФет та ін. Деякі нові результати щодо методів прогнозування коефіцієнтів кореляційного збереження // Лінійна алгебра та її застосування 289 (1999) 311-318.

  4. Мулайк, Стенлі А. Основи факторного аналізу, 2-е видання, 2009

  5. Harman, Harry H. Modern Factor Analysis, 3-е видання, 1976

  6. Недейкер, Хайнц. Про найкраще афінне неупереджене коваріаційне збереження прогнозування показників факторів // SORT 28 (1) січень-червень 2004, 27-36


1F=b1X1+b2X2s1s2F

s1=b1r11+b2r12

s2=b1r12+b2r22

rXs=RbFbrs


2

enter image description here


3
Гарна відповідь, схвалений! Просто хотів сказати вам, що мене вражають ваші знання зі статистики, загалом, і факторного аналізу, зокрема. Будемо раді зв’язатися з вами в LinkedIn та інших соціальних мережах. До речі, FYI: посилання на сайт вашої компанії у вашому профілі порушено.
Олександр Блех

ХЖАЖR-1А?
амеба каже, що відбудеться

І ще одне питання. Якщо припускати розподіл факторів Гаусса і використовує алгоритм ЕМ для підходу до моделі, то максимальні показники коефіцієнта ймовірності визначаються (використовуючи нотацію)(Я+АU-2А)-1АU-2, що дуже близьке до того, що ви назвали методом Бартлетта, але з додатковим Яв дужках. Чи є такий підхід у літературі ФА? Чому ця невелика невідповідність методу Бартлетта? Я взяв формулу з «Розпізнавання образів та машинне навчання» Бішопа, розділ 12.2.4.
Амеба каже, що повернеться Моніка

@amoeba, я додав трохи інформації у відповідь стосовно вашого першого коментаря. Що стосується вашого другого коментаря - вибачте, я думаю, що я не можу відповісти на нього, не копаючись у книгах. Якщо ви самі знайдете відповідь, будь ласка, будь ласка, з’ясуйте її для аудиторії. :-)
ttnphns

1
Дивовижне оновлення @ttnphns, чудова робота. Я помітив, що цю тему переглядали 13 тис. Разів, вона повинна зайняти високий рейтинг у популярному пошуку Google.
Амеба повідомляє, що повернеться Моніка

-2

Для проведення PCA в метеорології коефіцієнти кореляції отримують, використовуючи коефіцієнт кореляції Пірсона (якщо змінні знаходяться в різних одиницях, оскільки це стандартизує дані, щоб їх можна було порівняти безпосередньо без будь-яких розбіжностей через різниці величин / величин між даними, таким чином, коефіцієнти кореляції можуть просто порівняти ступінь розбіжності навколо середнього значення для кожного набору даних і між кожним набором даних.Інакше, якщо всі дані вимірюються за допомогою одного і того ж блоку, можна використовувати метод коваріації. SPSS це спрощує.


1
Це абсолютно незрозуміло - яким чином відповідь стосується питання (тобто обчислення балів компонента / фактора)?
ttnphns

Що сталося з прямим підходом для отримання балів ПК у PCA, коли використовується кореляція, за участю власних векторів та z-бальної матриці, як у Yн×p=Еp×pТZp×н?
JoleT
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.