PCA та дослідницький факторний аналіз на одному і тому ж наборі даних: відмінності та схожість; факторна модель проти PCA


19

Мені хотілося б знати, чи є логічний сенс проводити аналіз основних компонентів (PCA) та дослідницький факторний аналіз (EFA) на одному і тому ж наборі даних. Я чув, що фахівці прямо рекомендують:

  1. Зрозуміти, яка мета аналізу, і вибрати PCA або EFA для аналізу даних;
  2. Зробивши один аналіз, не потрібно робити іншого аналізу.

Я розумію мотиваційні відмінності між цими двома, але мені було просто цікаво, чи є щось неправильне в інтерпретації результатів, наданих PCA та EFA одночасно?


8
Чому незахищеність? Якщо ви розумієте мотиваційні відмінності між ними, ви повинні знаходитись в одній з двох позицій: розглядайте їх як взаємодоповнюючі та готові вивчити обидва. Розгляньте одне як набагато переконливіше в тому, що ви хочете зробити. Здається, вам потрібно сказати, що потрібно правильно зробити, але PCA з FA або FA є настільки давньою областю суперечки, що якщо два експерти погоджуються, зазвичай це лише те, що вони обидва не згодні з третім експертом, але для різних причини.
Нік Кокс

Що ти вивчаєш? Якась соціальна наука, як щастя або об'єктивні дані, такі як відсоткові ставки?
Аксакал

Відповіді:


20

Обидві моделі - головний компонент і загальний фактор - схожі прямолінійні лінійні регресійні моделі, що прогнозують спостережувані змінні за латентними змінними. Давайте будемо центрирувати змінні V1 V2 ... Vp, і ми вирішили витягнути 2 компоненти / фактори FI та FII . Тоді модель являє собою систему рівнянь:

V1=а1ЯЖЯ+а1ЯЯЖЯЯ+Е1

V2=а2ЯЖЯ+а2ЯЯЖЯЯ+Е2

...

Vp=

де коефіцієнт a - навантаження, F - коефіцієнт або компонент, а змінна E - залишки регресії. Тут модель FA відрізняється від моделі PCA саме тим, що FA накладає вимогу: змінні E1 E2 ... Ep (терміни помилки, які некорельовані з F s), не повинні співвідносити один з одним ( див. Малюнки ). Ці змінні помилки FA називають "унікальними чинниками"; їхні відхилення відомі ("унікальні"), але їх значення не має значення. Тому коефіцієнти F обчислюються лише як хороші наближення, вони не є точними.

(Представлення матричної алгебри цієї загальної моделі аналізу факторів знаходиться у виносці 1. )1

Тоді як у PCA змінні помилки від прогнозування різних змінних можуть вільно співвідноситись: їм нічого не нав'язується. Вони представляють собою "дросель", для якого ми взяли розміщені розміри p-2 . Ми знаємо значення E і тому можемо обчислити бали компонентів F як точні значення.

Це була різниця між моделлю PCA та моделлю FA.

Саме завдяки зазначеній вище різниці ФА здатний пояснити попарні кореляції (коваріації). PCA, як правило, не може цього зробити (якщо тільки кількість витягнутих компонентів = p ); він може пояснити лише багатоваріантну дисперсію 2 . Отже, доки термін "Факторний аналіз" визначається з метою пояснення кореляцій, PCA не є факторним аналізом. Якщо "Факторний аналіз" визначається ширше як метод, що забезпечує або пропонує приховані "риси", які можна інтерпретувати, PCA може бути зрозумілим - це особлива і найпростіша форма факторного аналізу.2

Іноді - у деяких наборах даних за певних умов - PCA залишає E терміни, які майже не взаємопов'язані. Тоді PCA може пояснити кореляції і стати схожим на FA. Дуже рідко зустрічаються набори даних з багатьма змінними. Це змусило деяких спостерігачів стверджувати, що результати PCA стають близькими до результатів FA, коли дані збільшуються. Я не думаю, що це правило, але тенденція може бути. У будь-якому випадку, враховуючи їх теоретичні відмінності, завжди добре вибирати метод свідомо. FA є більш реалістичною моделлю, якщо ви хочете зменшити змінні до обмежень, які ви будете вважати реальними прихованими ознаками, що стоять за змінними і змушують їх співвідноситись.

Але якщо у вас є інша мета - зменшити розмірність, максимально зберігаючи відстані між точками хмари даних - PCA краще, ніж FA. (Однак, ітеративна процедура багатовимірного масштабування (MDS) буде ще кращою, ніж тоді. PCA становить ненітеративну метрику MDS.) Якщо ви більше не турбуєтесь про відстані і бажаєте лише зберегти якнайбільше загальної дисперсії даних Наскільки це можливо, за кількома розмірами - PCA - це оптимальний вибір.


Фактор моделі аналізу даних: V = F ' + Е d I в г ( у ) , де V єпроаналізованих даних (стовпчикицентру або стандартизовані), F представляєзагальні значення коефіцієнта (невідомі справжні,не є фактором балів) з блоком дисперсія, A -матриця загальних факторних навантажень (матриця візерунка), E -унікальні значення коефіцієнта (невідомі), u -вектор унікальних факторних навантажень, рівний квадратному кореню однозначності ( u 2 ). Порція1V=ЖА'+Егiаг(у)Vn cases x p variablesЖn x mАp x mЕn x pуpу2 можна просто позначити як "E" для простоти, як це є у формулах, що відкривають відповідь.Егiаг(у)

Основні припущення моделі:

  • Змінні F і E (загальні та унікальні коефіцієнти відповідно) мають нульові середні та одиничні варіації; Е, як правило, вважається багатоваріантним нормальним, але F в загальному випадку не повинен бути багатоваріантним нормальним (якщо обидва вважаються багатоваріантними нормальними, то V теж є);ЖЕЕЖV
  • змінні некорельовані між собою і некорельовані зізмінними F.ЕЖ

З загальноїмоделіаналізу факторіввипливає,що навантаження A зmзагальних факторів (m<pзмінних), також позначених A ( m ) , повинна тісно відтворювати спостережувані коваріації (або кореляції) між змінними, Σ . Отже, якщо фактори є ортогональними,теоремапро фундаментальнийфакторговорить про це2 АА(м)Σ

іЕ Е +Dяг(у2),Σ^=АА'ΣΣ^+гiаг(у2)

де Σ є матрицею коваріації відтвореного (або кореляції) з загальними дисперсиями ( «спільності») по діагоналі; і унікальні дисперсії ("унікальності"), які є дисперсіями мінус спільність - є вектором u 2 . Позадіагональне розбіжність ( ) пояснюється тим, що фактори є теоретичною моделлю, що генерує дані, і як така вона простіша за спостережувані дані, на яких вона була побудована. Основними причинами розбіжності між спостережуваними та відтвореними коваріаціями (або кореляціями) можуть бути: (1) кількість факторів m не є статистично оптимальним; (2) часткові кореляції (цеΣ^у2p(p-1)/2фактори, що не належать до загальних факторів) яскраво виражені; (3) комунальні послуги недостатньо зібрані, їх початкові значення були поганими; (4) відносини не є лінійними, використовуючи лінійну модель під питанням; (5) модель "підтипу", вироблена методом вилучення, не є оптимальною для даних (див. Про різні методи вилучення ). Іншими словами, деякі припущення щодо даних ФА виконані не повністю.

Що стосується звичайної PCA , то вона відтворює коваріації навантаженнями саме тоді, коли m = p (використовуються всі компоненти), і зазвичай це не вдається зробити, якщо m < p (збережено лише кілька перших компонентів). Теорема фактора для PCA:

Σ=АА(p)'=АА(м)'+АА(p-м)'

А(м)А(p-м)АА(p-м)'А(м)

А(м)

тrаcе(А'А(м))

ΣАА'тrаcе(АА')тrаcе(А'А)А'А

Завдяки максимізації сліду - дисперсія пояснена м компонентів - PCA є облік ковариаций, так як ковариация розділяє дисперсію. У цьому сенсі PCA - це "низьке раннє наближення" всієї коваріаційної матриці змінних. І коли з точки зору спостережень це наближення є наближенням евклідової відстані матриці спостережень (саме тому PCA є метричним MDS під назвою "Основний аналіз координат"). Цей факт не повинен нас екранувати від реальності, що PCA не моделює коваріаційна матриця (кожна коваріація), породжена кількома живими прихованими ознаками, які можна уявити як трансцендентні до наших змінних; наближення PCA залишається незмінним, навіть якщо це добре: це спрощення даних.


Якщо ви хочете побачити покрокові обчислення, виконані в PCA та FA, коментувати та порівнювати, будь ласка, загляньте сюди .


Це відмінна відповідь.
Subhash C. Davar

2
+1 за те, що я отримав нову перспективу перегляду PCA. Тепер, як я це розумію, і PCA, і FA можуть пояснити дисперсію спостережуваних змінних, і оскільки FA диктує, що умови помилки для кожної змінної не повинні співвідноситись, тоді як PCA не робить такого диктанту, тому FA може зафіксувати всю коваріацію в спостережувані змінні, але PCA цього не робить, тому що в PCA терміни помилок можуть також містити деяку коваріацію спостережуваних змінних, якщо ми не використовуємо весь ПК для представлення спостережуваних змінних, правда?
авокадо

1
Саме так. PCA може не тільки занижувати значення коваріації (як ви, напевно, можете подумати), але й може завищувати його. Коротше кажучи, a1 * a2 <> Cov12, що є нормальною поведінкою для PCA. Для ФА це буде ознакою субоптимального рішення (наприклад, неправильна кількість факторів, що дістаються).
ttnphns

Σ=WW+σ2IΣ=WW+ΨΨ
амеба каже, що повернеться Моніка

ΣWW'WΨσ2

6

Я розповів про схожість та відмінності між PCA та FA в наступній темі: Чи є якісь вагомі причини використовувати PCA замість EFA? Також може PCA бути заміною факторного аналізу?

Зауважте, що мій обліковий запис дещо відрізняється від облікового запису @ttnphns (як представлено у його відповіді вище). Моє основне твердження полягає в тому, що PCA і FA не настільки різні, як часто вважають. Вони дійсно можуть сильно відрізнятися, коли кількість змінних дуже мала, але, як правило, дають досить схожі результати, коли кількість змінних перевищить десяток. Дивіться мою [довгу!] Відповідь у пов'язаній нитці щодо математичних деталей та моделювання Монте-Карло. Для набагато більш стислої версії мого аргументу дивіться тут: За яких умов PCA і FA дають подібні результати?

Тут я хотів би чітко відповісти на ваше головне запитання: чи є щось не так у виконанні PCA та FA на одному наборі даних? Моя відповідь на це: Ні.

Під час запуску PCA або FA ви не перевіряєте жодної гіпотези. Вони обидва є дослідницькими методами, які використовуються для кращого розуміння даних. То чому б не вивчити дані за допомогою двох різних інструментів? Насправді давайте це зробимо!

Приклад: набір даних про вино

н=178p=13

PCA та FA аналіз даних про вина


If the results turn out to be very similar, then you can decide to stick with only one approach. Звичайно. Наскільки подібне тоді? If the results turn out to be very different, then maybe it tells you something about your dataЦе абсолютно містично та езотерично.
ttnphns

Хм, вибачте, якщо це було незрозуміло. Я мав на увазі те, що якщо є багато змінних і PCA дає дуже різні навантаження від FA, це нам щось говорить. Можливо, спільності є дуже низькими (тобто в кореляційній матриці переважають діагоналі, а позадіагональні елементи малі). Це може бути цікавим спостереженням. Якби я чомусь проаналізував один і той же набір даних з PCA та FA і отримав дуже різні результати, я би це дослідив далі. Чи є сенс?
амеба каже, що повернеться до Моніки

@ttnphns: я зробив оновлення з відпрацьованим прикладом для одного конкретного набору даних. Сподіваюся, вам сподобається! Дивіться також мою пов'язану (нову) відповідь. Вперше я зробив біплот FA, і наші попередні розмови мені дуже допомогли.
амеба каже, що повернеться до Моніки
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.