Обидві моделі - головний компонент і загальний фактор - схожі прямолінійні лінійні регресійні моделі, що прогнозують спостережувані змінні за латентними змінними. Давайте будемо центрирувати змінні V1 V2 ... Vp, і ми вирішили витягнути 2 компоненти / фактори FI та FII . Тоді модель являє собою систему рівнянь:
V1= а1 яЖЯ+ а1 яЯЖЯЯ+ Е1
V2= а2 яЖЯ+ а2 яЯЖЯЯ+ Е2
. . .
Vp= …
де коефіцієнт a - навантаження, F - коефіцієнт або компонент, а змінна E - залишки регресії. Тут модель FA відрізняється від моделі PCA саме тим, що FA накладає вимогу: змінні E1 E2 ... Ep (терміни помилки, які некорельовані з F s), не повинні співвідносити один з одним ( див. Малюнки ). Ці змінні помилки FA називають "унікальними чинниками"; їхні відхилення відомі ("унікальні"), але їх значення не має значення. Тому коефіцієнти F обчислюються лише як хороші наближення, вони не є точними.
(Представлення матричної алгебри цієї загальної моделі аналізу факторів знаходиться у виносці 1. )1
Тоді як у PCA змінні помилки від прогнозування різних змінних можуть вільно співвідноситись: їм нічого не нав'язується. Вони представляють собою "дросель", для якого ми взяли розміщені розміри p-2 . Ми знаємо значення E і тому можемо обчислити бали компонентів F як точні значення.
Це була різниця між моделлю PCA та моделлю FA.
Саме завдяки зазначеній вище різниці ФА здатний пояснити попарні кореляції (коваріації). PCA, як правило, не може цього зробити (якщо тільки кількість витягнутих компонентів = p ); він може пояснити лише багатоваріантну дисперсію 2 . Отже, доки термін "Факторний аналіз" визначається з метою пояснення кореляцій, PCA не є факторним аналізом. Якщо "Факторний аналіз" визначається ширше як метод, що забезпечує або пропонує приховані "риси", які можна інтерпретувати, PCA може бути зрозумілим - це особлива і найпростіша форма факторного аналізу.2
Іноді - у деяких наборах даних за певних умов - PCA залишає E терміни, які майже не взаємопов'язані. Тоді PCA може пояснити кореляції і стати схожим на FA. Дуже рідко зустрічаються набори даних з багатьма змінними. Це змусило деяких спостерігачів стверджувати, що результати PCA стають близькими до результатів FA, коли дані збільшуються. Я не думаю, що це правило, але тенденція може бути. У будь-якому випадку, враховуючи їх теоретичні відмінності, завжди добре вибирати метод свідомо. FA є більш реалістичною моделлю, якщо ви хочете зменшити змінні до обмежень, які ви будете вважати реальними прихованими ознаками, що стоять за змінними і змушують їх співвідноситись.
Але якщо у вас є інша мета - зменшити розмірність, максимально зберігаючи відстані між точками хмари даних - PCA краще, ніж FA. (Однак, ітеративна процедура багатовимірного масштабування (MDS) буде ще кращою, ніж тоді. PCA становить ненітеративну метрику MDS.) Якщо ви більше не турбуєтесь про відстані і бажаєте лише зберегти якнайбільше загальної дисперсії даних Наскільки це можливо, за кількома розмірами - PCA - це оптимальний вибір.
Фактор моделі аналізу даних: V = F ' + Е d I в г ( у ) , де V єпроаналізованих даних (стовпчикицентру або стандартизовані), F представляєзагальні значення коефіцієнта (невідомі справжні,не є фактором балів) з блоком дисперсія, A -матриця загальних факторних навантажень (матриця візерунка), E -унікальні значення коефіцієнта (невідомі), u -вектор унікальних факторних навантажень, рівний квадратному кореню однозначності ( u 2 ). Порція1V = F A'+ Е дя a g( і )Vn cases x p variables
Жn x m
Аp x m
Еn x p
уp
у2 можна просто позначити як "E" для простоти, як це є у формулах, що відкривають відповідь.Е дя a g( і )
Основні припущення моделі:
- Змінні F і E (загальні та унікальні коефіцієнти відповідно) мають нульові середні та одиничні варіації;
Е, як правило, вважається багатоваріантним нормальним, але F в загальному випадку не повинен бути багатоваріантним нормальним (якщо обидва вважаються багатоваріантними нормальними, то V теж є);ЖЕЕЖV
- змінні некорельовані між собою і некорельовані зізмінними F.ЕЖ
З загальноїмоделіаналізу факторіввипливає,що навантаження A зmзагальних факторів (m<pзмінних), також позначених A ( m ) , повинна тісно відтворювати спостережувані коваріації (або кореляції) між змінними, Σ . Отже, якщо фактори є ортогональними,теоремапро фундаментальнийфакторговорить про це2 АА( м )Σ
іЕ≈ Е +Dяг(у2),Σ^=A A'Σ ≈ Σ^+ d i a g ( u2)
де Σ є матрицею коваріації відтвореного (або кореляції) з загальними дисперсиями ( «спільності») по діагоналі; і унікальні дисперсії ("унікальності"), які є дисперсіями мінус спільність - є вектором u 2 . Позадіагональне розбіжність ( ≈ ) пояснюється тим, що фактори є теоретичною моделлю, що генерує дані, і як така вона простіша за спостережувані дані, на яких вона була побудована. Основними причинами розбіжності між спостережуваними та відтвореними коваріаціями (або кореляціями) можуть бути: (1) кількість факторів m не є статистично оптимальним; (2) часткові кореляції (цеΣ^у2≈p(p-1)/2
фактори, що не належать до загальних факторів) яскраво виражені; (3) комунальні послуги недостатньо зібрані, їх початкові значення були поганими; (4) відносини не є лінійними, використовуючи лінійну модель під питанням; (5) модель "підтипу", вироблена методом вилучення, не є оптимальною для даних (див. Про різні методи вилучення ). Іншими словами, деякі припущення щодо даних ФА виконані не повністю.
Що стосується звичайної PCA , то вона відтворює коваріації навантаженнями саме тоді, коли m = p (використовуються всі компоненти), і зазвичай це не вдається зробити, якщо m < p (збережено лише кілька перших компонентів). Теорема фактора для PCA:
Σ = A A'( р )= A A'( м )+'( р - м )
А( м )А( р - м )A A'( р - м )А( м )
А( м )
t r a c e ( A'А( м ))
ΣA A't r a c e ( A A')t r a c e ( A'А )А'А
Завдяки максимізації сліду - дисперсія пояснена м компонентів - PCA є облік ковариаций, так як ковариация розділяє дисперсію. У цьому сенсі PCA - це "низьке раннє наближення" всієї коваріаційної матриці змінних. І коли з точки зору спостережень це наближення є наближенням евклідової відстані матриці спостережень (саме тому PCA є метричним MDS під назвою "Основний аналіз координат"). Цей факт не повинен нас екранувати від реальності, що PCA не моделює коваріаційна матриця (кожна коваріація), породжена кількома живими прихованими ознаками, які можна уявити як трансцендентні до наших змінних; наближення PCA залишається незмінним, навіть якщо це добре: це спрощення даних.
Якщо ви хочете побачити покрокові обчислення, виконані в PCA та FA, коментувати та порівнювати, будь ласка, загляньте сюди .