Методи обчислення балів коефіцієнтів / компонентів
Після серії коментарів я вирішив нарешті видати відповідь (виходячи з коментарів та іншого). Йдеться про обчислення балів компонентів у PCA та факторних балів при факторному аналізі.
Фактор / оцінки компонентів дані F = X B , де Х є аналізованих змінними ( центровані , якщо аналіз РСА / фактора був заснований на коваріації або Z-стандартизовані , якщо воно було засноване на кореляції). B - матриця коефіцієнта коефіцієнта / компонента (або ваги) . Як можна оцінити ці ваги?F^=XBXB
Позначення
-матриця змінних (позиційних) кореляцій або коваріацій, залежно від того, що було проаналізовано фактором / PCA.Rp x p
-матриця навантаження фактора / компонента. Це можуть бути вантажі після видобутку (часто також позначаються А ), після чого торці є ортогональними або практично так, або навантаження після обертання, ортогональні або косі. Якщо обертання булокосим, воно повинно бутинавантаженням пошаблону.Pp x m
A
-матриця співвідношень факторів / компонентів після їх (навантажень) косого обертання. Якщо обертання або ортогональне обертання не здійснювалося, цематрицяідентичності.Cm x m
-наведена матриця відтворюваних кореляцій / коваріації,=РСР'(=РР'для ортогональних рішень), він містить спільності по діагоналі.R^p x p
=PCP′=PP′
-діагональна матриця однознач (унікальність + спільність = діагональний елемент R ). Тут я використовую "2" як індекс, замість суперскрипту ( U 2 ) для зручності для читання у формулах.U2p x p
RU2
-повна матриця кореляцій відтворених / коваріації, = R + U 2 .R∗p x p
=R^+U2
- псевдоінверсія деякої матриці M ; якщо M повнорозрядний, M + = ( M ′ M ) - 1 M ′ .M+MMM+=(M′M)−1M′
- для деякої квадратної симетричної матриці M її підняття до p o w e r дорівнює ейгендекомпозиції H K H ′ = M , піднесення власних значень до потужності і складання назад: M p o w e r = H K p o w e r H ′ .MpowerMpowerHKH′=MMpower=HKpowerH′
Грубий метод обчислення балів коефіцієнта / компонента
Цей популярний / традиційний підхід, який іноді називають Cattell's, є просто усередненням (або підсумовуванням) значень елементів, завантажених одним і тим же фактором. Математично вона зводиться до установки ваг в обчисленні балів F = X B . Існує три основні версії підходу: 1) використовувати навантаження такими, якими вони є; 2) Діхотомізуйте їх (1 = завантажений, 0 = не завантажений); 3) Використовуйте навантаження такими, якими вони є, але нульові навантаження, менші за деякий поріг.B=PF^=XB
Часто при такому підході, коли елементи знаходяться в одній шкалі одиниці, значення використовуються просто необробленими; хоча і не порушувати логіку факторингу, краще використовувати X, оскільки він увійшов до факторингу - стандартизований (= аналіз кореляцій) або по центру (= аналіз коваріацій).XX
На мою думку, головним недоліком грубого методу розрахунку коефіцієнтів / компонентів є те, що він не враховує кореляцій між завантаженими елементами. Якщо предмети, завантажені коефіцієнтом, щільно співвідносяться, а один завантажений сильніше, ніж інший, то останні можна вважати молодшим дублікатом і його вагу можна зменшити. Вдосконалені методи роблять це, але грубий метод не може.
Грубі бали, звичайно, легко обчислити, оскільки інверсія матриці не потрібна. Перевага грубого методу (пояснення, чому він все ще широко використовується, незважаючи на доступність комп'ютерів), полягає в тому, що він дає більш стійкі показники від вибірки до вибірки, коли відбір проб не є ідеальним (у сенсі репрезентативності та розміру) або елементи для аналіз був недостатньо підібраний. Напрошуючи один документ: "Метод підрахунку сум може бути найбажанішим, коли ваги, які використовуються для збору оригінальних даних, не перевірені та досліджувані, мало підтверджують достовірність чи достовірність або взагалі не мають їх". Крім того , він не вимагає розуміння "фактора" обов'язково як одновимірної латентної сутності, як цього вимагає модель факторного аналізу ( див. , Див.). Ви можете, наприклад, поняти фактор як сукупність явищ - тоді підсумовувати значення предметів розумно.
Вдосконалені методи обчислення балів коефіцієнтів / компонентів
Ці методи - це те, що роблять аналітичні пакети факторів. Вони оцінюють різними методами. Хоча навантаження A або P - це коефіцієнти лінійних комбінацій для прогнозування змінних за факторами / компонентами, B - коефіцієнти для обчислення балів коефіцієнта / компонента з змінних.BAPB
Оцінки , розраховані з допомогою масштабируются: вони мають відхилення , рівні або близькі до 1 (стандартизований або поблизу стандартизованим) - не істинний коефіцієнт відхилення (що дорівнює сумі квадратів структурних навантажень см Виноска 3 тут ). Отже, коли вам потрібно надати бали коефіцієнтів з істинною дисперсією коефіцієнта, помножте бали (стандартизуючи їх на ст.дев. 1) на квадратний корінь цієї дисперсії.B
Ви можете зберегти з аналізу , проведеного, щоб бути в змозі обчислити оцінки для нових найближчих спостережень X . Також B може бути використаний для зважування предметів, що складають шкалу анкети, коли шкала розробляється або підтверджується факторним аналізом. (У квадраті) коефіцієнти B можна інтерпретувати як внески предметів у фактори. Коефіцієнти можуть бути стандартизовані так, як коефіцієнт регресії стандартизований β = b σ i t e mBXBB (деσfactor=1) для порівняння внесків предметів з різними відхиленнями.β=bσitemσfactorσfactor=1
Дивіться приклад, що показує обчислення, зроблені в PCA та FA, включаючи обчислення балів з матриці коефіцієнтів балів.
На перших двох малюнках тут представлено геометричне пояснення навантаження '(як перпендикулярні координати) та коефіцієнти балів b ' (координати перекосу) у налаштуваннях PCA .ab
Тепер до вдосконалених методів.
Методи
Розрахунок в PCAB
Коли навантаження компонентів витягується, але не обертається, , де L - діагональна матриця, що складається з власних значень; ця формула означає просто ділення кожного стовпця А на відповідне власне значення - дисперсію компонента.B=AL−1Lm
A
Рівнозначно . Ця формула застосовується також для компонентів (навантажень), обернених, ортогонально (таких як varimax) або косо.B=(P+)′
Деякі методи, що використовуються в факторному аналізі (див. Нижче), якщо застосовуються в рамках PCA, повертають той же результат.
Обчислювані бали компонентів мають відхилення 1 і вони є справжніми стандартизованими значеннями компонентів .
Те, що в статистичному аналізі даних називається матрицею коефіцієнта головного компонента , і якщо воно обчислюється з повної, а не з якоюсь обертовою матрицею завантаження, то в машинній навчальній літературі часто позначають матрицю відбілювання (на основі PCA) , а стандартизованими основними компонентами є визнано "побіленими" даними.Bp x p
Розрахунок у загальному факторному аналізіB
В відміну від компонентів оцінки, фактор оцінки не є і неточним ; вони є лише наближенням до невідомих справжніх значень факторів. Це тому, що ми не знаємо значень спільності чи унікальності на рівні випадку, - оскільки фактори, на відміну від компонентів, є зовнішніми змінними, відокремленими від маніфестних та мають власний, невідомий нам розподіл. Що є причиною невизначеності цього фактора . Зауважимо, що проблема невизначеності логічно не залежить від якості факторного рішення: наскільки фактор є істинним (відповідає латентному, що генерує дані у популяції) - це інше питання, ніж те, наскільки реальними є результати респондентів (чи точні оцінки) вилученого фактора).F
Оскільки бали факторів є наближеннями, існують альтернативні методи їх обчислення та конкурують.
Метод регресії або методу Терстона або Томпсона для оцінки балів факторів задається , де S = P C - матриця структурних навантажень (для рішень ортогональних факторів ми знаємо A = P = S ). Основа методу регресії - у виносці 1 .B=R−1PC=R−1SS=PCA=P=S1
Примітка. Ця формула для може бути використана і для PCA: вона дасть у PCA такий же результат, як і формули, наведені в попередньому розділі.B
У FA (не PCA) регресійно обчислені показники коефіцієнтів виявляться не зовсім «стандартизованими» - матимуть відхилення не 1, але рівні регресування цих балів змінними. Це значення можна інтерпретувати як ступінь визначення фактора (його справжніх невідомих значень) змінними - R-квадратом прогнозування ними реального фактора, а метод регресії максимально збільшує його, - "обгрунтованість" обчислених балів. На малюнку2показана геометрія. (Зверніть увагу, щоSS r e g rSSregr(n−1)2 буде дорівнює дисперсії балів для будь-якого вдосконаленого методу, але лише для методу регресії ця кількість буде дорівнює частці визначення справжнього f. значення за f. бали.)SSregr(n−1)
Як варіант методу регресії можна використовувати замість R у формулі. Це обґрунтовано на підставі того, що в хорошому факторному аналізі R і R ∗ дуже схожі. Однак, коли їх немає, особливо коли кількість факторів менше, ніж справжня чисельність населення, метод дає сильний ухил у балах. І не слід використовувати цей метод "відтвореної регресії R" за допомогою PCA.R∗RRR∗m
Метод PCA , також відомий як Хорста (Mulaik) або ідеального (ized) змінного підходу (Harman). Це метод регресії з R замість R в його формулі. Неважко показати, що формула тоді зводиться до B = ( P + ) ′ (і так так, нам фактично не потрібно з цим знати C ). Оцінки за коефіцієнтами обчислюються так, як якщо б вони були складовими.R^RB=(P+)′C
[Етикетка «ідеалізована змінний» походить від того факту , що , оскільки в відповідно до коефіцієнта або компонентою моделі передбаченої частиною змінних є Й = Р Р ' , то F = ( Р + ) ' X , але підставити X для невідомого (ідеально) Х , щоб оцінити F як рахунок F ; тому ми "ідеалізуємо" X. ]X^=FP′F=(P+)′X^XX^FF^X
Зверніть увагу, що цей метод не передає бали компонентів PCA для факторних балів, оскільки використовувані навантаження не є навантаженнями PCA, а факторним аналізом '; тільки що обчислювальний підхід для балів дзеркал, що в PCA.
Метод Бартлетта . Тут . Цей метод прагне звести до мінімуму для кожного респондента різноманітні фактори ("помилки"). Варіанти результативних результатів загального коефіцієнта не будуть рівними і можуть перевищувати 1.B′=(P′U−12P)−1P′U−12p
Метод Андерсона-Рубіна був розроблений як модифікація попереднього. . Варіантність балів буде рівно 1. Однак цей метод призначений лише для рішень ортогональних факторів (для косих рішень він дасть ще ортогональні оцінки).B′=(P′U−12RU−12P)−1/2P′U−12
Метод Макдональда-Андерсона-Рубіна . Макдональд поширив Андерсона-Рубіна на рішення косих факторів. Тож ця більш загальна. За допомогою ортогональних факторів воно фактично зводиться до Андерсона-Рубіна. Деякі пакети, ймовірно, можуть використовувати метод Макдональдса, називаючи його "Андерсон-Рубін". Формула: , де G і Н отримані в СВД ( R 1 / 2 U - 1 2 P C 1 / 2 )B=R−1/2GH′C1/2GH . (Звичайно,використовуйте лише першістовпці в G ).svd(R1/2U−12PC1/2)=GΔH′m
G
Метод Гріна . Використовує ту ж формулу , як McDonald-Андерсона-Рубін, але і Н обчислюються як: СВД ( R - 1 / 2 Р С 3 / 2 ) = G Δ H ' . ( Звичайно, використовуйте лише перші стовпці в G ). Метод Гріна не використовує інформацію про комунальні (або унікальні) характеристики. Він підходить і зближується з методом Макдональда-Андерсона-Рубіна, оскільки фактичні спільноти змінних стають все більш рівними. І якщо застосувати до завантажень PCA, Green повертає бали компонентів, як метод рідного PCA.GHsvd(R−1/2PC3/2)=GΔH′m
G
Метод Крийнен та ін . Цей метод є узагальненням, яке об'єднує обидві попередні два єдиною формулою. Це, ймовірно, не додає нових чи важливих нових функцій, тому я не розглядаю це.
Порівняння між очищеними методами .
Метод регресії забезпечує максимальну кореляцію між балами фактора та невідомими справжніми значеннями цього фактора (тобто максимізує статистичну обґрунтованість ), але бали дещо упереджені і вони дещо неправильно корелюють між факторами (наприклад, вони корелюють навіть тоді, коли фактори в розчині є ортогональними). Це найменші квадрати.
Метод PCA також є найменшими квадратами, але з меншою статистичною достовірністю. Вони швидше обчислюються; У наш час вони не часто використовуються в факторному аналізі через комп'ютери. (У PCA цей метод є рідним та оптимальним.)
Оцінки Бартлетта є неупередженими оцінками дійсних значень фактора. Оцінки обчислюються, щоб точно співвідносити справжні, невідомі значення інших факторів (наприклад, не співвіднести їх з ортогональним рішенням, наприклад). Тим НЕ менше, вони по- , як і раніше можуть корелювати неакуратно з фактором оцінкою
обчисленої для інших факторів. Це максимально вірогідні (за багатовимірною нормальністю припущення ) оцінки.X
Оцінки Андерсона-Рубіна / Макдональда-Андерсона-Рубіна та Гріна називаються збереженням кореляції, оскільки обчислюються, щоб точно співвідносити з коефіцієнтами інших факторів. Кореляції між показниками коефіцієнтів дорівнюють співвідношенням факторів у розчині (так, наприклад, в ортогональному розчині, показники будуть абсолютно некорельовані). Але бали дещо упереджені і їх достовірність може бути скромною.
Перевірте також цю таблицю:
[Примітка для користувачів SPSS: Якщо ви використовуєте PCA (метод вилучення "основних компонентів"), але запитуєте коефіцієнт запиту, окрім методу "Регресія", програма не враховує запит і замість цього обчислює "Регресійні" бали (які є точними бали компонентів).]
Список літератури
Гріс, Джеймс В. Обчислювальні та оцінювальні показники факторів // Психологічні методи 2001, Вип. 6, № 4, 430-450.
DiStefano, Christine та ін. Розуміння та використання показників факторів // Практична оцінка, дослідження та оцінка, т. 14, № 20
десять Берже, Джос МФет та ін. Деякі нові результати щодо методів прогнозування коефіцієнтів кореляційного збереження // Лінійна алгебра та її застосування 289 (1999) 311-318.
Мулайк, Стенлі А. Основи факторного аналізу, 2-е видання, 2009
Harman, Harry H. Modern Factor Analysis, 3-е видання, 1976
Недейкер, Хайнц. Про найкраще афінне неупереджене коваріаційне збереження прогнозування показників факторів // SORT 28 (1) січень-червень 2004, 27-36
1F=b1X1+b2X2s1s2F
s1=b1r11+b2r12
s2=b1r12+b2r22
rXs=RbFbrs
2