Які відмінності між факторним аналізом та аналізом основних компонентів?


214

Схоже, що ряд статистичних пакетів, які я використовую, поєднує ці два поняття разом. Однак мені цікаво, чи існують різні припущення чи "формальності" даних, які повинні бути правдивими, щоб використовувати одне за іншим. Справжній приклад був би неймовірно корисним.


2
Розділи аналізу основних компонентів та аналізу факторів у наступній книзі, яка доступна в більшості бібліотек коледжів, точно відповідають на ваше запитання: apa.org/pubs/books/4316510.aspx
user31256

3
Окрім наведених нижче відповідей, ви також можете прочитати це і це моє.
ttnphns

2
І ще одне добре запитання на зразок "чи слід використовувати PCA чи FA": stats.stackexchange.com/q/123063/3277 .
ttnphns

3
@ttnphns: Я б закликав вас опублікувати відповідь у цій темі, можливо, що складається з анотованого списку ваших відповідей в інших пов’язаних темах. Це може замінити ваші коментарі вище (на даний момент чотири коментарі із посиланнями), і було б більш практичним, особливо якщо ви коротко анотували кожне посилання. Наприклад, шукайте тут пояснення цього питання, шукайте там пояснення цього питання і т. Д. Це просто пропозиція, але я вважаю, що ця нитка дуже виграє від цього! Одна особлива перевага полягає в тому, що ви завжди можете додати більше посилань на цю відповідь.
амеба

2
Аналогічне запитання було задано на MathOverflow, і я отримав те, що вважав би чудовою відповіддю: mathoverflow.net/questions/40191/…
Даніель Москович,

Відповіді:


156

Аналіз основних компонентів включає вилучення лінійних композитів спостережуваних змінних.

Факторний аналіз ґрунтується на формальній моделі, що передбачає спостережувані змінні від теоретичних прихованих факторів.

У психології ці дві методики часто застосовуються при побудові багатомасштабних тестів, щоб визначити, які предмети завантажуються, які шкали. Зазвичай вони дають подібні змістовні висновки (для обговорення див. Comrey (1988) Факторно-аналітичні методи розвитку масштабу в особистості та клінічній психології). Це допомагає пояснити, чому деякі пакети статистичних даних, схоже, поєднують їх. Я також бачив ситуації, коли "аналіз основних компонентів" неправильно позначається "факторним аналізом".

З точки зору простого правила , я б запропонував вам:

  1. Запустіть факторний аналіз, якщо ви припускаєте або хочете перевірити теоретичну модель прихованих факторів, що викликають спостережувані змінні.

  2. Запустити аналіз основних компонентів Якщо ви хочете просто зменшити ваші корельовані спостережувані змінні до меншого набору важливих незалежних складових змінних.


5
Велике корисне правило там. Дякую за це.
Брендон Бертелсен

1
Що стосується правила (1): Чи не перевіряв би я теоретичну модель прихованих факторів за допомогою підтверджуючого факторного аналізу, а не дослідницького фа?
Роман

1
@roman Так. CFA дає вам набагато більше контролю над моделлю, ніж EFA. Наприклад, ви можете обмежити навантаження до нуля; зрівняти навантаження; мають співвідносні залишки; додайте фактори вищого порядку; пр.
Джеромій Англім

3
@Jeromy Anglim Чи дійсно правильно сказати, що PCA складає "менший набір важливих незалежних складових змінних". Або вам слід сказати "менший набір важливих некорельованих композитних змінних". Якщо базові дані, що використовуються в PCA, не є (багатоваріантним) нормально розподіленими, зменшені розмірні дані будуть лише некорельованими?
FXQuantTrader

1
Другий великий палець правила легко отримати, але як я застосувати перший? Звучить, можливо, дивно, але коли я можу знати, що я хочу запустити факторну модель проти спостережуваних змінних?
Бен

48

З моєї відповіді тут:

Чи PCA супроводжується обертанням (таким як varimax), як і раніше PCA?

Аналіз основних компонентів (PCA) та загальний факторний аналіз (CFA) - це різні методи. Часто вони дають подібні результати, і PCA використовується як метод вилучення за замовчуванням у процедурах аналізу факторів SPSS. Це, безперечно, призводить до великої плутанини щодо розрізнення між ними.

Суть полягає в тому, що це дві різні моделі, концептуально. У PCA компоненти - це фактичні ортогональні лінійні комбінації, які максимізують загальну дисперсію. У FA фактори є лінійними комбінаціями, які максимізують спільну частину дисперсії - основні "приховані конструкції". Ось чому ФА часто називають "загальним факторним аналізом". FA використовує різноманітні процедури оптимізації, і результат, на відміну від PCA, залежить від використовуваної процедури оптимізації та вихідних точок для цих процедур. Просто не існує жодного унікального рішення.

У R функція factanal () забезпечує CFA максимальну ймовірність вилучення. Отже, не слід сподіватися, що він відтворить результат SPSS, заснований на вилученні PCA. Це просто не та сама модель чи логіка. Я не впевнений, чи отримали б ви такий самий результат, якби ви використовували SPSS-максимум імовірності вилучення, оскільки вони не можуть використовувати той самий алгоритм.

Для кращого чи гіршого рівня R ви можете, однак, відтворити змішаний "факторний аналіз", який надає SPSS за замовчуванням. Ось процес у Р. За допомогою цього коду я можу відтворити результат основного компонента SPSS "Факторний аналіз" за допомогою цього набору даних. (За винятком знаку, який є невизначеним). Цей результат також може бути повернутий за допомогою будь-якого з доступних методів обертання R.

data(attitude)
# Compute eigenvalues and eigenvectors of the correlation matrix.
pfa.eigen <- eigen(cor(attitude))
# Print and note that eigenvalues are those produced by SPSS.
# Also note that SPSS will extract 2 components as eigenvalues > 1 = 2.
pfa.eigen$values
# Set a value for the number of factors (for clarity)
kFactors <- 2
# Extract and transform two components.
pfa.eigen$vectors[, seq_len(kFactors)]  %*% 
  diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors)

5
Зверніть увагу , що ви отримаєте ті ж результати , з principal(attitude, 2, rotate="none")з psychпакета і що правило Кайзера (ев> 1) не є найбільш рекомендованим способом перевірки розмірності (він завищує кількість факторів).
chl

5
Так, я знаю, що головна психіка завершує це. Моєю метою було показати, що робить "факторний аналіз" SPSS, використовуючи метод вилучення основних компонентів. Я згоден, що правило про власне значення - це поганий спосіб вибору кількості факторів. Але саме це робить SPSS за замовчуванням, і це було те, що я демонстрував.
Бретт

1
factanal()забезпечує EFA не CFA. Також, з мого досвіду, витяг максимальної ймовірності SPSS повинен дати такий же результат, як і з factanal()огляду на відсутність косого обертання.
пе-пе-ррі

2
Що означає наступне: "У ФА фактори є лінійними комбінаціями, які максимізують спільну частину дисперсії, що лежать в основі" прихованих конструкцій ". '?
домисли

Зауважте також, що CFA може виступати за підтверджувальну FA (на відміну від пояснювальної FA ) замість загальної FA .
Річард Харді

33

Ви маєте рацію щодо свого першого пункту, хоча у ФА ви взагалі працюєте з обома (унікальністю та спільністю). Вибір між PCA та FA - це давня дискусія серед психометріків. Я не дуже дотримуюся ваших точок. Обертання основних осей може застосовуватися незалежно від методу побудови прихованих факторів. Фактично, це часто обертання VARIMAX (ортогональне обертання, враховуючи некорельовані фактори), яке застосовується з практичних причин (найпростіша інтерпретація, найпростіші правила зарахування чи інтерпретація бальних показників тощо), хоча косою обертанням (наприклад, PROMAX ) можливо, краще відображає реальність (латентні конструкції часто співвідносяться між собою), принаймні в традиції FA, де ви припускаєте, що латентна конструкція справді лежить в основі спостережуваних взаємозв'язків між вашими змінними. Справа в тому, що PCA з наступним обертанням VARIMAX дещо спотворює інтерпретацію лінійних комбінацій вихідних змінних у традиції "аналізу даних" (див. Роботу Мішеля Тененгауза). З психометричної точки зору слід віддавати перевагу моделям FA, оскільки вони явно враховують помилки вимірювань, тоді як PCA це не хвилює. Коротко сказано, використовуючи PCA, ви виражаєте кожен компонент (фактор) як лінійну комбінацію змінних, тоді як у FA це змінні, що виражаються як лінійні комбінації факторів (включаючи спільність та компоненти унікальності, як ви сказали). Справа в тому, що PCA з наступним обертанням VARIMAX дещо спотворює інтерпретацію лінійних комбінацій вихідних змінних у традиції "аналізу даних" (див. Роботу Мішеля Тененгауза). З психометричної точки зору слід віддавати перевагу моделям FA, оскільки вони явно враховують помилки вимірювань, тоді як PCA це не хвилює. Коротко сказано, використовуючи PCA, ви виражаєте кожен компонент (фактор) як лінійну комбінацію змінних, тоді як у FA це змінні, що виражаються як лінійні комбінації факторів (включаючи спільність та компоненти унікальності, як ви сказали). Справа в тому, що PCA з наступним обертанням VARIMAX дещо спотворює інтерпретацію лінійних комбінацій вихідних змінних у традиції "аналізу даних" (див. Роботу Мішеля Тененгауза). З психометричної точки зору слід віддавати перевагу моделям FA, оскільки вони явно враховують помилки вимірювань, тоді як PCA це не хвилює. Коротко сказано, використовуючи PCA, ви виражаєте кожен компонент (фактор) як лінійну комбінацію змінних, тоді як у FA це змінні, що виражаються як лінійні комбінації факторів (включаючи спільність та компоненти унікальності, як ви сказали). Переважними є моделі FA, оскільки вони явно враховують помилки вимірювань, тоді як PCA це не хвилює. Коротко сказано, використовуючи PCA, ви виражаєте кожен компонент (фактор) як лінійну комбінацію змінних, тоді як у FA це змінні, що виражаються як лінійні комбінації факторів (включаючи спільність та компоненти унікальності, як ви сказали). Переважними є моделі FA, оскільки вони явно враховують помилки вимірювань, тоді як PCA це не хвилює. Коротко сказано, використовуючи PCA, ви виражаєте кожен компонент (фактор) як лінійну комбінацію змінних, тоді як у FA це змінні, що виражаються як лінійні комбінації факторів (включаючи спільність та компоненти унікальності, як ви сказали).

Рекомендую спочатку прочитати наступні дискусії на цю тему:


7
Просто кажу, що моя відповідь може виглядати трохи поза темою, оскільки це питання було об'єднано з іншим, stats.stackexchange.com/questions/3369/… (я спочатку відповідаю на останнє).
chl

6
Ах, мені було цікаво, чому ви пов’язані з цим квестоном у цьому питанні ... :)
Брендон Бертелсен

1
PCA followed by VARIMAX rotation somewhat distorts the interpretation of the linear combinations of the original variables in the "data analysis" tradition. Хл, ви могли б це пояснити? Це цікаво.
ttnphns

32

В Інтернеті є численні запропоновані визначення. Ось один із он-лайн глосарію статистичного навчання :

Аналіз основних компонентів

Побудова нових функцій, які є основними компонентами набору даних. Основними компонентами є випадкові величини максимальної дисперсії, побудовані з лінійних комбінацій вхідних ознак. Рівнозначно, це проекції на основні осі компонентів, які є лініями, що мінімізують середню відстань у квадраті до кожної точки в наборі даних. Для забезпечення унікальності всі основні осі компонентів повинні бути ортогональними. PCA - це максимально вірогідна методика лінійної регресії за наявності гауссового шуму як на входах, так і на виходах. У деяких випадках PCA відповідає перетворення Фур'є, наприклад DCT, використовуваному для стиснення зображення JPEG. Див. "Власні поверхні для розпізнавання" (Turk & Pentland, J Cognitive Neuroscience 3 (1), 1991), єпископ, "

Факторний аналіз

Узагальнення PCA, засноване явно на максимальній ймовірності. Як і PCA, кожна точка даних передбачається, що виникає з вибірки точки в підпросторі, а потім її збурення повномірним гауссовим шумом. Різниця полягає в тому, що факторний аналіз дозволяє шуму мати довільну діагональну коваріаційну матрицю, тоді як PCA припускає, що шум є сферичним. Крім оцінки підпростори, факторний аналіз оцінює матрицю коваріації шуму. Див. "Алгоритм Е. М. для сумішей факторних аналізаторів". Вибір розмірності для PCA ".


2
Опис факторного аналізу отримує основну точку (діагональна коваріація), але історично не розроблявся як узагальнення PCA.
вигадки

1
Отже, в PCA один svd - коваріаційна матриця, а в FA - кореляційна матриця? Мені завжди важко знайти фактичну математику після того, як методи створили багато термінології з тієї галузі, де вони застосовуються. (Поза темою: колись мені знадобилося ціле південь, коли я зрозумів, що таке моделювання шляху, поки я не знайшов одного (1) документа з 70-х років, який вказав матричне рівняння за ним.)
Марк ван дер Лоо

28

Верхня відповідь у цій нитці говорить про те, що PCA - це більше техніка зменшення розмірності, тоді як FA - це більше прихована змінна техніка. Це сенсу строго правильно. Але багато відповідей тут і багато методів лікування представляють PCA та FA як два абсолютно різні методи, з різними, якщо не протилежними цілями, методами та результатами. Я не погоджуюсь; Я вважаю, що коли PCA сприймається як латентна змінна техніка, вона досить близька до FA, і їх краще розглядати як дуже схожі методи.

Я розповів про схожість та відмінності між PCA та FA в наступній темі: Чи є якісь вагомі причини використовувати PCA замість EFA? Також може PCA бути заміною факторного аналізу? Там я стверджую, що з простих математичних причин можна очікувати, що результат PCA та FA буде досить схожим, враховуючи лише те, що кількість змінних не дуже мала (можливо, більше десятка). Дивіться мою [довгу!] Відповідь у пов'язаній темі щодо математичних деталей та моделювання Монте-Карло. Більш більш стислу версію мого аргументу див. Тут: За яких умов PCA і FA дають подібні результати?

Тут я хотів би це показати на прикладі. Я проаналізую винний набір даних із сховища машинного навчання UCI. Це досить відомий набір даних із винами з трьох різних сортів винограду, описаних змінними. Ось як виглядає матриця кореляції: p = 13n=178p=13

Кореляційна матриця набору даних про вино

Я провів і PCA, і FA аналіз, і показав 2D прогнози даних у вигляді біплотів для обох на малюнку нижче (PCA зліва, FA праворуч). Горизонтальна та вертикальна осі показують бали 1-го та 2-го компонентів / факторів. Кожна з точок відповідає одному вину, і крапки кольорові відповідно до групи (див. Легенду):n=178

PCA та FA аналіз даних про вина

Навантаження 1-го та 2-го компонентів / коефіцієнтів на кожну з вихідних змінних показано у вигляді чорних ліній. Вони рівні кореляціям між кожною вихідною змінною та двома компонентами / факторами. Зрозуміло, кореляція не може перевищувати , тому всі лінії завантаження містяться всередині "кола кореляції", показуючи максимально можливу кореляцію. Усі навантаження та коло довільно масштабуються на коефіцієнт , інакше їх було б занадто мало, щоб їх було видно (тому радіус кола дорівнює а не ).1 3 3 1p=131331

Зауважте, що різниця між PCA і FA є навряд чи! Тут і там невеликі відхилення, але загальна картина майже однакова, і всі навантаження дуже схожі і вказують в однакових напрямках. Це саме те, що очікувалося від теорії, і це не дивно; все-таки повчально спостерігати.

PS. Більш красивий білет для PCA того ж набору даних дивіться у цій відповіді від @vqv .

PPS. Хоча розрахунки PCA є стандартними, розрахунки FA можуть вимагати коментарів. Навантаження факторів обчислювалося алгоритмом "ітераційних головних факторів" до конвергенції (9 ітерацій), спільноти ініціалізовані частковими кореляціями. Після того, як навантаження зблизилися, бали підраховували за методом Бартлетта. Це дає стандартизовані оцінки; Я масштабував їх за відповідними відхиленнями коефіцієнтів (заданими довжинами навантажень).


1
Яке програмне забезпечення ви використовували для створення графіків PCA та аналізу факторів?
rnso

1
Я використовував Matlab. Я думав вставити код у свою відповідь (як це зазвичай моя звичка), але не хотів ще більше забивати цю зайняту нитку. Але подумайте над цим, я мушу опублікувати його на якомусь зовнішньому веб-сайті та залишити тут посилання. Я зроблю це.
амеба

2
Це правда, що PCA та FA іноді і зовсім не дають подібних результатів (навантажень), і тому PCA можна розглядати як конкретний випадок FA, коли аналіз факторів визначається широко. Все-таки FA (sensu stricto) і PCA теоретично зовсім різні.
ttnphns

2
(продовження) Фактори є трансцендентними прихованими ознаками; пр. компоненти - це іманентні похідні. Незважаючи на те, що два ваші ділянки завантаження здаються практично схожими, теоретично вони принципово відрізняються. Площина компонентів зліва створюється як підпростір змінних, які проектуються на неї. Факторна площина була вироблена як простір, відмінний від простору змінних, і тому вони проектують себе на «чужому» просторі на правій графіці.
ttnphns

3
(продовження) Але правильний малюнок (FA) насправді не є справжнім біплотом , це скоріше накладання двох чітко розлітаються, різних просторів: ділянка завантаження (де осі є істинними факторами) та об'єкт балів ділянки (де осі оцінені фактори як бали). Справжній факторний простір перевищує "батьківський" змінний простір, але фактор набирає простір - його підпростір. Ви наклали дві неоднорідні пари осей, але вони мають однакові мітки ("фактор1" і "фактор2" в обох парах), що обставина сильно вводить в оману і переконує нас думати, що це сумлінний біплот , як лівий.
ttnphns

25

Основне, але своєрідне кропітке пояснення аналізу PCA vs Factor за допомогою розсіювачів в логічних кроках. (Я дякую @amoeba, який у своєму коментарі до запитання запропонував мені опублікувати відповідь замість того, щоб посилатися на інші місця. Отже, тут є дозвілля, пізня відповідь.)

PCA як змінний підсумок (вилучення функції)

Сподіваюся, ви вже розумієте PCA. Відроджуватися зараз.

введіть тут опис зображення

Припустимо, у нас є співвідносні змінні та . Ми центруємо їх (віднімаємо середнє значення) і робимо розсіювач. Потім ми виконуємо PCA на цих централізованих даних. PCA - це форма обертання осей, яка пропонує осі P1 і P2 замість V1 і V2. Ключова властивість PCA є те , що P1 - називається першим основний компонент - отримує орієнтовано таким чином, що дисперсія точок даних по ній розгорнуто. Нові осі - це нові змінні, значення яких можна обчислити, доки ми знаємо коефіцієнти обертання (PCA надає їх) [ Eq.1 ]:V1V2a

P1=a11V1+a12V2

P2=a21V1+a22V2

Ці коефіцієнти є косинусами обертання (= косинуси напрямків, головні напрямки) і містять ті, що називаються власними векторами, тоді як власні значення матриці коваріації є основними дисперсіями компонентів. У PCA ми, як правило, відкидаємо слабкі останні компоненти: таким чином ми узагальнюємо дані за кількома першими вилученими компонентами з невеликими втратами інформації.

Covariances
        V1       V2 
V1  1.07652   .73915 
V2   .73915   .95534 

----PCA---- 
Eigenvalues      % 
P1  1.75756   86.500 
P2   .27430   13.500 

Eigenvectors
        P1       P2
V1   .73543  -.67761 
V2   .67761   .73543

За допомогою наших графічних даних, значення компонентів (балів) P1 P1 = .73543*V1 + .67761*V2та компонента P2 ми відкидаємо. Дисперсія P1 є 1.75756, то першим власним значенням матриці коваріації, і тому P1 пояснює 86.5%в загальній дисперсії , яка дорівнює (1.07652+.95534) = (1.75756+.27430).

PCA як змінний прогноз ("латентна" особливість)

Отже, ми відкинули P2 і очікуємо, що P1 може лише розумно представляти дані. Це рівнозначно тому, що може досить добре "реконструювати" або передбачити та [ Eq.2 ]:P1 V1V2

V1=a11P1+E1

V2=a12P1+E2

де коефіцієнти це те, що ми вже знаємо, а - помилки (непередбачуваність). Це фактично "регресійна модель", де спостережувані змінні прогнозуються (назад) латентною змінною (якщо дозволити називати компонент "латентним") P1, витягнутим із тих самих змінних. Подивіться на графік Fig.2 , це не що інше, як фіг.1 , лише детально:aE

введіть тут опис зображення

Вісь P1 показана плиткою зі своїми значеннями (P1 балів) зеленим кольором (ці значення - проекції точок даних на P1). Деякі довільні точки даних були позначені A, B, ..., а їх відхід (похибка) від P1 є жирними чорними роз'ємами. Для точки A наведено деталі: координати балів P1 (зелені A) на осі V1 і V2 - значення, відремонтовані P1 V1 і V2 відповідно до рівня 2 , і . Помилки відновлення та також відображаються, бежевим . Довжина квадрата "помилки" в квадраті - це сума двох помилок у квадраті, згідно Пифагорею.V1^=a11P1V2^=a12P1E1=V1V1^E2=V2V2^

Тепер, що характерно для PCA, це те, що якщо ми обчислимо E1 і E2 для кожної точки даних і побудуємо ці координати - тобто зробимо розсіювач помилок самостійно, хмарні "дані про помилки" збігатимуться з відкинутим компонентом P2. І це так: хмара побудована на тій же картині, що і бежева хмара, - і ви бачите, що вона фактично утворює вісь P2 (на фіг.1 ) як плитку з компонентами P2.

Недарма, скажете ви. Це так очевидно: у PCA відмінений молодший компонент (и) - це те, що точно розкладається (-и) в помилках прогнозування E, в моделі, яка пояснює (відновлює) оригінальні змінні V за латентною ознакою (ами) P1. Помилки E разом складають лівий компонент (и). Ось де факторний аналіз починає відрізнятися від PCA.

Ідея загальної ФА (латентна особливість)

Формально модель прогнозування маніфестних змінних за вилученими прихованими ознаками є такою ж у FA, як у PCA; [ Рівень 3 ]:

V1=a1F+E1

V2=a2F+E2

де F - прихований загальний фактор, витягнутий з даних і замінює той, що був P1 у рівнянні 2 . Різниця в моделі полягає в тому, що в FA, на відміну від PCA, змінні помилок (E1 і E2) повинні бути некорельованими між собою .

Відступ . Тут я хочу раптом перервати історію і скласти уявлення про те, що таке коефіцієнти . У PCA ми говорили, що це записи власних векторів, виявлені в PCA (за допомогою розкладання власного чи сингулярного значення). У той час як латентний Р1 мав свою первісну дисперсію. Якщо ми вирішимо стандартизувати P1 до одиниці дисперсії, нам доведеться компенсувати відповідним масштабуванням коефіцієнти , щоб підтримати рівняння. Те, що збільшується s, називають навантаженнями ; вони представляють інтерес чисельно, оскільки вони є коваріаціями (або співвідношеннями) між прихованою та спостережуваними змінними, і тому можуть допомогти інтерпретувати приховану ознаку. В обох моделях - Eq.2 і Eq.3aaa- Ви вільні вирішувати, не завдаючи шкоди рівнянню, яким способом масштабувати терміни. Якщо F (або P1) вважається одиницею масштабування, завантажується; тоді як якщо F (P1) повинен мати свою основну шкалу (дисперсію), то слід відповідно зменшити масштаб - у PCA, який буде рівним записам власного вектора, але в FA вони будуть іншими і зазвичай не називаються "власними векторами". У більшості текстів на факторному аналізі, F передбачаються одинична дисперсія так ARE навантаження . У літературі PCA, Р1 , як правило , мають свою обговорювали реальну дисперсію і так є власними векторами.aaaa

Добре, поверніться до нитки. E1 та E2 є некорельованими при факторному аналізі; таким чином, вони повинні утворювати хмару помилок або круглої, або еліптичної, але не орієнтованої по діагоналі. Перебуваючи в PCA, їх хмара утворює пряму, що збігається з діагонально йде P2. Обидві ідеї продемонстровані на малюнку:

введіть тут опис зображення

Зауважте, що помилки - це кругла (не діагонально витягнута) хмара у FA. Фактор (латентний) у FA орієнтований дещо інакше, тобто не правильно перший основний компонент, який є "латентним" у PCA. На рис, лінія факторів дивно трохи конічна - стане зрозуміло, чому врешті-решт.

У чому сенс цієї різниці між PCA та FA? Змінні корельовані, що видно у діагонально еліптичній формі хмари даних. Р1 скинув максимальну дисперсію, тому еліпс спільно спрямований на Р1. Отже, P1 сама по собі пояснила кореляцію; але це не пояснило належної кількості кореляції ; Мабуть, пояснюється зміна точок даних, а не кореляція. Насправді, це переоцінило кореляцію, результатом якої стала поява діагональної, корельованої хмари помилок, яка компенсує надмірний рахунок. Сам P1 не може пояснити міцність кореляції / коваріації комплексно. Фактор F можеробити це поодинці; і умова, коли вона стає здатною зробити це саме там, де помилки можна змусити бути некорельованими. Оскільки хмара помилок кругла, після вилучення фактора не залишається кореляційної кореляції - позитивної чи негативної, отже, саме цей фактор проскочив усе.

Як зменшення розмірності, PCA пояснює дисперсію, але пояснює кореляції неточно. FA пояснює кореляції, але не може врахувати (за загальними чинниками) стільки варіацій даних, скільки PCA. Коефіцієнт (и) у ФА враховують ту частину мінливості, яка є чистою кореляційною частиною, що називається спільністю ; і тому фактори можна інтерпретувати як реальні, але непомітні сили / особливості / риси, які ховаються "в" або "позаду" вхідних змінних, щоб привести їх у співвідношення. Тому що вони коректно пояснюють кореляцію математично. Основні компоненти (декілька перших) пояснюють це математично не так добре, і тому їх можна назвати "прихованою ознакою" (або такою) лише в деякому розрізі і орієнтовно .

Множення навантажень - це те, що пояснює (відновлює) кореляцію, або кореляційність у вигляді коваріації - якщо аналіз базувався на матриці коваріації (як у зовнішньому прикладі), а не на кореляційній матриці. Факторний аналіз, який я робив з отриманими даними a_1=.87352, a_2=.84528, тому продукт a_1*a_2 = .73837майже дорівнює коваріації .73915. З іншого боку, навантаження PCA були a1_1=.97497, a1_2=.89832, тому значно a1_1*a1_2 = .87584завищуються .73915.

Пояснивши основну теоретичну відмінність PCA від FA, повернемося до наших даних, щоб пояснити цю ідею.

FA: приблизне рішення (коефіцієнт)

Нижче наведено розсіювач, що показує результати аналізу, який ми умовно називатимемо «оптимальним факторним аналізом», рис.3 .

A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).

введіть тут опис зображення

Див. Виїзди з фіг.2 ПКС. Бежева хмара помилок не кругла, вона діагонально еліптична, - але, очевидно, набагато жирніше, ніж тонка діагональна лінія, що відбулася в PCA. Зауважимо також, що роз'єми помилок (показані для деяких точок) вже не паралельні (у PCA вони за визначенням були паралельними P2). Більше того, якщо ви подивитесь, наприклад, на точки "F" і "E", які лежать дзеркалом симетрично над віссю F фактора , ви несподівано виявите, що їх відповідні коефіцієнти мають зовсім інші значення. Іншими словами, множники факторів - це не просто лінійно перетворені головні компоненти компонентів: коефіцієнт F по-своєму відрізняється від способу P1. І їх осі не повністю збігаються, якщо їх зображено разом на одному сюжеті Рис.4 :

введіть тут опис зображення

Крім того, що вони дещо інакше орієнтовані, F (як викладений плитками) є коротшим, тобто на нього припадає менша дисперсія, ніж P1. Як зазначалося раніше, фактор пояснює лише мінливість, яка відповідає за кореляцію V1 V2, тобто частину загальної дисперсії, достатню для приведення змінних від первинної коваріації 0до фактичної коваріації .73915.

FA: оптимальне рішення (справжній фактор)

Оптимальне рішення коефіцієнта - коли помилки круглої або недіагональної еліптичної хмари: E1 і E2 повністю некорельовані . Факторний аналіз фактично повертає таке оптимальне рішення. Я не показував це на простому розсіювачі, як описано вище. Чому я? - бо це було б найцікавіше, зрештою.

Причина в тому, що неможливо було б достатньо адекватно показати на розсипці, навіть прийнявши 3D-сюжет. Це теоретично досить цікавий момент. Для того, щоб зробити E1 і E2 повністю некорельованими, виявляється, що всі ці три змінні F, E1, E2 повинні лежати не в просторі (площині), визначеному V1, V2; і три повинні бути неспорідненими один з одним . Я вважаю, що можна намалювати таку розсипку в 5D (а може, і з якоюсь трюком - в 4D), але ми живемо в 3D-світі, на жаль. Фактор F повинен бути некорельованим як з E1, так і з E2 (хоча вони двоє теж є некорельованими), оскільки F повинен бути єдиним (чистим) і повним джерелом кореляції у спостережуваних даних. Аналіз чинника розщеплюється загальна дисперсія зpвхідні змінні на дві неспоріднені (неонові частини) частини: спільність частини ( m-вимірна, де mправило загальних факторів) та частина унікальності ( p-вимірність, де помилки, також звані унікальними чинниками, взаємно некорельовані).

Тож вибачте за те, що тут не показано справжній фактор наших даних на розсипці. Це можна було візуалізувати досить адекватно за допомогою векторів у "предметному просторі", як це робиться тут, не показуючи точок даних.

Вище в розділі "Ідея загальної FA (прихованої ознаки)" я показав фактор (вісь F) як клин, щоб попередити, що справжня вісь фактора не лежить на площині V1 V2. Це означає, що - на відміну від основного компонента P1 - фактор F як вісь не є поворотом осі V1 або V2 в їх просторі, а F як змінна не є лінійною комбінацією змінних V1 і V2. Тому F моделюється (витягується зі змінних V1 v2) так, ніби зовнішня незалежна змінна, а не їх похідне. Такі рівняння, як рівняння 1, з якого починається PCA, є непридатними для обчислення істинного (оптимального) коефіцієнта при факторному аналізі, тоді як формально ізоморфні рівняння рівняння 2 та рівняння 3справедливі для обох аналізів. Тобто, у змінних PCA генеруються компоненти та компоненти, що передбачують змінні; у факторах FA генерують / прогнозують змінні, а не назад - загальноприйнята факторна модель концептуально передбачає це , навіть якщо технічні фактори витягуються із спостережуваних змінних.

Не тільки істинний чинник не залежить від виявленої змінних істинного фактора значення є не визначені однозначно . Іншими словами, вони просто невідомі. Все це пов'язано з тим, що ми знаходимося в надмірному 5D аналітичному просторі, а не в нашому домашньому 2D просторі даних. Для нас є лише хороші наближення (існує низка методів ) до справжніх значень факторів, які називаються факторними оцінками . Факторні бали лежать у площині V1 V2, як і головні складові компоненти, вони також обчислюються як лінійні функції V1, V2, і це були вонищо я побудував у розділі "ФА: приблизне рішення (бали факторів)". Основні бали компонентів - справжні значення компонентів; бали факторів є лише розумним наближенням до невизначених істинних значень фактора.

FA: перелік процедури

Зібрати в один невеликий згусток те, що було сказано в двох попередніх розділах, і додати остаточні штрихи. Насправді, ФА може ( якщо ви зробите це правильно, а також див. Припущення щодо даних ) знайти справжнє факторне рішення (під "істинним" я маю на увазі тут оптимальне для вибірки даних). Однак існують різні методи видобутку (вони відрізняються деякими вторинними обмеженнями, які вони ставлять). Справжнє факторне рішення - лише до навантажень . Таким чином, навантаження є оптимальними, справжніми чинниками. Факторні бали - якщо вони вам потрібні - піддаються обчислюванню з цих навантажень різними способами і повертають наближення до значень коефіцієнта.a

Таким чином, "факторне рішення", відображене мною у розділі "ФА: приблизне рішення (коефіцієнт)", фактично базувалося на оптимальних навантаженнях, тобто на справжніх факторах. Але бали не були оптимальними за долею. Оцінки обчислюються як лінійна функція спостережуваних змінних, подібно до компонентних балів, тому їх обидва можна порівняти на розсипці, і я зробив це в дидактичному пошуку, щоб показати, як поступовий перехід від ідеї PCA до ідеї FA.

Потрібно бути обережними, будуючи графіки на одних і тих же навантажувачах біплот з коефіцієнтами фактора в "просторі факторів", пам'ятати , що навантаження стосуються справжніх факторів, а оцінки - сурогатних факторів (дивіться мої коментарі до цієї відповіді в цій темі).

Обертання факторів (навантажень) допомагає інтерпретувати приховані особливості. Обертання навантажень може бути здійснено також у PCA, якщо ви використовуєте PCA як би факторний аналіз (тобто розглядайте PCA як змінне прогнозування). PCA має тенденцію до зближення результатів з FA, коли кількість змінних зростає (див. Надзвичайно багату нитку щодо практичної та концептуальної подібності та відмінності між двома методами). Дивіться мій список відмінностей між PCA та FA в кінці цієї відповіді . Покрокові обчислення PCA vs FA на наборі даних райдужної оболонки можна знайти тут . Існує значна кількість хороших посилань на відповіді інших учасників по темі поза цією темою; Вибачте, що я використовував лише декілька з них у поточній відповіді.

Дивіться також список куль різниць між PCA та FA тут .


1
+1. Чудово, що ви це написали, на цю тему точно не вистачало відповіді від вас. Я проголосував перед читанням (що я рідко роблю) і, звичайно, насолоджувався наступним читанням. Я можу прокоментувати більше пізніше, але один маленький нитчик зараз: ви кілька разів писали, що в FA хмара помилок повинна бути "круглою". Але насправді це цілком може бути еліптичним (оскільки однозначності для V1 і V2 можуть мати різні відхилення), воно просто має мати нульові кореляції. Напевно, ви не хотіли плутати читачів із цією деталлю.
амеба

1
@amoeba У мене є наївне сумніви щодо математичної неможливості представити оптимальні F, E1, E2 у просторі (площині), визначеному V1, V2. Я можу придумати такий приклад лічильника: Скажіть і , де - Тепер використовуйте ці відносини для створення зразків V1 і V2. Як тільки V1 і V2 генеруються, якби ми виконували оптимальну ФА, нам слід повернути майже точні оцінки (E1, E2), і це сформує еліптичну хмару. Більше того, тепер F, E1, E2 можуть бути представлені в тій же площині, що і V1 і V2. V 2 = a 2 F + E 2 ( E 1 , E 2 ) = N ( 0 , I )V1=a1F+E1V2=a2F+E2(E1,E2)=N(0,I)
kasa

@kasa, ваш коментар привітав мою відповідь чи коментар амеби? Якщо ваш коментар суперечить моєму принциповому твердженню, що в FA три прихованих змінних не лежать у вихідному просторі, і ви можете його показати, чому б не надати відповідь, що показує це? Але зауважте, що в оптимальній ФА помилки точно не пов'язані між собою, а не те, що їх можна уявити як такі, що походять від нормальної некоррельованої сукупності.
ttnphns

@ttnphns: Вибачте за плутанину, я сумнівався у вашій головній претензії. Я спробую це показати як відповідь через пару днів. Дякую!
kasa

21

Відмінності між факторним аналізом та аналізом основних компонентів:

• У факторному аналізі є структурована модель та деякі припущення. У цьому відношенні це статистичний прийом, який не застосовується до аналізу основних компонентів, що є суто математичним перетворенням.

• Метою аналізу основного компонента є пояснення дисперсії, тоді як факторний аналіз пояснює коваріацію між змінними.

Однією з найбільших причин плутанини між ними є те, що один із методів вилучення факторів у Факторному аналізі називається "методом основних компонентів". Однак одне - використовувати PCA, а інша - використовувати метод основних компонентів у FA. Назви можуть бути схожими, але є суттєві відмінності. Перший є незалежним аналітичним методом, а другий - лише інструментом вилучення фактора.


13

Для мене (і я сподіваюся, що це корисно) факторний аналіз набагато корисніший, ніж PCA.

Нещодавно мені приємно було аналізувати шкалу за допомогою факторного аналізу. Ця шкала (хоча вона широко використовується в промисловості) була розроблена за допомогою PCA, і, наскільки мені відомо, ніколи не аналізувався фактор.

Коли я виконував факторний аналіз (головна вісь), я виявив, що спільність для трьох предметів була менше 30%, а це означає, що понад 70% дисперсії предметів не аналізувались. PCA просто перетворює дані в нову комбінацію і не дбає про комунальні послуги. Мій висновок полягав у тому, що шкала була не дуже хорошою з психометричної точки зору, і я підтвердив це іншим зразком.

По суті, якщо ви хочете передбачити використання факторів, використовуйте PCA, тоді як якщо ви хочете зрозуміти приховані фактори, використовуйте Факторний аналіз.


11

Розширення на відповідь @ StatisticsDocConsulting: різниця в навантаженнях між EFA та PCA нетривіальна з невеликою кількістю змінних. Ось функція моделювання для демонстрації цього в R:

simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100)
{require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables)
for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)}
X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1])))
X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X}

За замовчуванням ця функція виконує 100 Iterations, у кожній з яких вона виробляє випадкові, нормально розподілені вибірки ( ) з трьох змінних і витягує один фактор, використовуючи PCA та ML-EFA. Він виводить перелік двох- довгих векторів, що складається із середніх величин навантажень модельованих змінних на невратований перший компонент з PCA та загальний коефіцієнт від EFA відповідно. Це дозволяє вам розібратися з розміром вибірки та кількістю змінних та факторів відповідно до вашої ситуації в межах та функцій та вашого комп’ютера.Sample.Size=1000Iterationsprincipal()factanal()

Використовуючи цей код, я імітував зразки 3–100 змінних з 500 ітерацій для отримання даних:

Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98))
for(i in 3:100)
{X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)}

... для графіку чутливості середніх навантажень (через змінні та ітерації) до кількості змінних:

Це демонструє, наскільки інакше доводиться інтерпретувати силу навантажень в PCA проти EFA. Обидва дещо залежать від кількості змінних, але навантаження зміщуються вгору набагато сильніше в PCA. Різниця між середніми навантаженнями цих методів зменшується, коли кількість змінних збільшується, але навіть при 100 змінних навантаження PCA в середньому на вище, ніж завантаження EFA у випадкових нормальних даних. Однак зауважте, що середні завантаження зазвичай бувають вищими в реальних програмах, оскільки зазвичай ці методи використовуються на більш корельованих змінних. Я не впевнений, як це може вплинути на різницю середніх навантажень..067


10

Можна вважати, що PCA є як ФА, в якому для всіх змінних спільноти вважаються рівними 1. На практиці це означає, що предмети, які мали б відносно низькі коефіцієнти завантаження в FA через низьку комунальність, матимуть більш високі навантаження в PCA. Це не є бажаною особливістю, якщо головна мета аналізу - скоротити довжину виробу та очистити акумулятор з предметів із низькими або однозначними навантаженнями або виявити поняття, які недостатньо представлені в пулі елементів.


10

Цитата із справді приємного підручника (Браун, 2006, с. 22, наголос доданий).
PCA = аналіз основних компонентів
EFA = дослідницький факторний аналіз
CFA = підтверджуючий факторний аналіз

Хоча це стосується EFA, аналіз основних компонентів (PCA) часто класифікується як метод оцінки загального факторного аналізу. На відміну від оцінювачів, обговорених у попередньому пункті (ML, PF), PCA спирається на інший набір кількісних методів, які не ґрунтуються на загальній факторній моделі. PCA не розмежовує загальну та унікальну дисперсію. Швидше, PCA має на меті врахувати відмінність в спостережуваних заходах, а не пояснювати кореляційні зв’язки між ними. Таким чином, PCA більш доцільно застосовувати як техніку скорочення даних для зменшення більшого набору заходів до меншої, більш керованої кількості складених змінних, яку слід використовувати в наступних аналізах. Однак деякі методисти стверджують, що PCA є розумною або, можливо, вищою альтернативою EFA, зважаючи на той факт, що PCA має кілька бажаних статистичних властивостей (наприклад, обчислювально простіший, не сприйнятливий до неправильних рішень, часто дає результати, подібні до результатів EFA, здатність PCA обчислювати бал учасника за головним компонентом, тоді як невизначений характер EFA ускладнює такі обчислення). Хоча дискусії з цього питання тривають, Фабригар та ін. (1999) наводять кілька причин на противагу аргументу місця PCA в факторному аналізі. Ці автори підкреслюють ситуації, коли EFA та PCA дають різні результати; наприклад, коли комунальні послуги низькі або коли є лише декілька показників даного фактору (пор. Widaman, 1993). часто дає результати, подібні результатам EFA, здатність PCA обчислювати бал учасника за основним компонентом, тоді як невизначений характер EFA ускладнює такі обчислення). Хоча дискусії з цього питання тривають, Фабригар та ін. (1999) наводять кілька причин на противагу аргументу місця PCA в факторному аналізі. Ці автори підкреслюють ситуації, коли EFA та PCA дають різні результати; наприклад, коли комунальні послуги є низькими або коли є лише кілька показників даного фактору (пор. Widaman, 1993). часто дає результати, подібні результатам EFA, здатність PCA обчислювати бал учасника за основним компонентом, тоді як невизначений характер EFA ускладнює такі обчислення). Хоча дискусії з цього питання тривають, Фабригар та ін. (1999) наводять кілька причин на противагу аргументу місця PCA в факторному аналізі. Ці автори підкреслюють ситуації, коли EFA та PCA дають різні результати; наприклад, коли комунальні послуги є низькими або коли є лише кілька показників даного фактору (пор. Widaman, 1993). (1999) наводять кілька причин на противагу аргументу місця PCA в факторному аналізі. Ці автори підкреслюють ситуації, коли EFA та PCA дають різні результати; наприклад, коли комунальні послуги є низькими або коли є лише кілька показників даного фактору (пор. Widaman, 1993). (1999) наводять кілька причин на противагу аргументу місця PCA в факторному аналізі. Ці автори підкреслюють ситуації, коли EFA та PCA дають різні результати; наприклад, коли комунальні послуги є низькими або коли є лише кілька показників даного фактору (пор. Widaman, 1993).Незалежно від того, якщо переважне обґрунтування та емпіричні цілі аналізу узгоджуються із загальною факторною моделлю, то концептуально та математично суперечить проведенню PCA; тобто EFA є більш доцільним, якщо заявлена ​​мета полягає у відтворенні взаємозв'язків набору показників з меншою кількістю прихованих розмірів, визнаючи наявність похибки вимірювання в спостережуваних заходах.Флойд і Відаман (1995) стверджують, що оцінки, засновані на EFA, швидше узагальнюють до CFA, ніж ті, отримані від PCA, що, на відміну від PCA, EFA та CFA засновані на загальній факторній моделі. Це заслуговує на увагу, враховуючи той факт, що EFA часто використовується як попередник CFA при розробці масштабів та валідації конструкцій. Детальну демонстрацію обчислювальних відмінностей між PCA та EFA можна знайти у багатовимірних та факторно-аналітичних підручниках (наприклад, Tabachnick & Fidell, 2001).

Браун, штат Техас (2006). Підтверджуючий факторний аналіз прикладних досліджень. Нью-Йорк: Гілфорд Прес.


6

У роботі Тіпінга та Біскопа обговорюється тісний взаємозв'язок між імовірнісним PCA (PPCA) та фактором аналізу. PPCA ближче до FA, ніж класичний PCA. Загальна модель є

y=μ+Wx+ϵ

де , і . xN ( 0 , I ) ϵ N ( 0 , Ψ )WRp,dxN(0,I)ϵN(0,Ψ)

  • Факторний аналіз припускає, що є діагональним.Ψ
  • PPCA передбачаєΨ=σ2I

Майкл Е. Тіпінг, Крістофер М. Бішоп (1999). Імовірнісний аналіз основних компонентів , Журнал Королівського статистичного товариства, Том 61, Випуск 3, Сторінки 611–622


2
+1. Так. Я вважаю, що для розуміння взаємозв'язку між PCA і FA є необхідне розуміння PPCA. Але ви можете покращити свою відповідь, обговоривши зв'язок PCA / PPCA.
амеба

3

Жодна з цих відповідей не є досконалою. У FA або PCA є деякі варіанти. Ми повинні чітко вказати, які варіанти порівнюються. Я би порівняв аналіз максимального коефіцієнта ймовірності та PCA Хотелінга. Перші припускають, що латентна змінна йде за нормальним розподілом, але PCA не має такого припущення. Це призвело до відмінностей, таких як рішення, вкладення компонентів, унікальність рішення, алгоритми оптимізації.


1
Цікаво, чи можете ви трохи розширити це? Ви сказали, що в останньому реченні є розбіжності, але не дали багато інформації про те, якими можуть бути ці відмінності, або яким чином ці відмінності можуть бути важливими?
Срібна рибка

1
Вибрати два найвіддаленіші методи і стверджувати, що вони дійсно різні - як і ви - теж не є досконалою логікою. Напевно, слід знайти та повідомити, наскільки ці двоє схожі. Крім того, можна вибрати найбільш подібні методи (наприклад, звичайний PCA проти PAF ) та повідомити, чим вони відрізняються.
ttnphns

1
PCA Хотелінга припускає прихованих гаусів.
вигадки

1

Є багато чудових відповідей на цю посаду, але останнім часом я зіткнувся з іншою відмінністю.

Кластеризація - це одна програма, де PCA і FA дають різні результати. Якщо в даних багато функцій, можна спробувати знайти основні вказівки ПК та спроектувати дані на цих ПК, а потім продовжити кластеризацію. Часто це заважає притаманним кластерам даних - Це добре доведений результат. Дослідники пропонують продовжити методи кластеризації підпростору, які шукають низькомірні латентні фактори в моделі.

Просто, щоб проілюструвати цю різницю, розглянемо Crabsнабір даних у наборі даних Р. Крабів має 200 рядків та 8 стовпців, що описують 5 морфологічних вимірювань на 50 крабів кожної з двох кольорових форм та обох статей виду - По суті, існує 4 (2х2) різних класу краби.

library(MASS)
data(crabs)
lbl <- rep(1:4,each=50)
pc <- princomp(crabs[,4:8])
plot(pc) # produce the scree plot
X <- as.matrix(crabs[,4:8]) %*% pc$loadings
library(mclust)
res_12 <- Mclust(X[,1:2],G=4)
plot(res_12)


res_23 <- Mclust(X[,2:3],G=4)
plot(res_23)

Кластеризація за допомогою PC1 та PC2: введіть тут опис зображення

Кластеризація за допомогою PC2 та PC3: введіть тут опис зображення

#using PC1 and PC2:
     1  2  3  4
  1 12 46 24  5
  2 36  0  2  0
  3  2  1 24  0
  4  0  3  0 45

#using PC2 and PC3:
    1  2  3  4
  1 36  0  0  0
  2 13 48  0  0
  3  0  1  0 48
  4  1  1 50  2

Як ми бачимо з вищезазначених сюжетів, PC2 та PC3 несуть більше дискримінаційну інформацію, ніж PC1.

Якщо спробувати кластеризувати приховані фактори за допомогою Суміші факторних аналізаторів, ми бачимо набагато кращий результат порівняно з використанням перших двох ПК.

mfa_model <- mfa(y, g = 4, q = 2)
  |............................................................| 100%
table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50)))

     1  2  3  4
  1  0  0  0 45
  2 16 50  0  0
  3 34  0  0  0
  4  0  0 50  5

Треба сказати, що сумніваюся, що ця відповідь справді відповідає на питання. Відповідь стосується кластерного аналізу після PCA чи FA, а не про PCA та FA. Але навіть у цьому відношенні відповідь тьмяна або незавершена. Як слід пояснити різницю, яку ви відображаєте?
ttnphns

@ttnphns Я згоден з тим, що відповідь стосується кластерного аналізу. Однак, ОП також попросила сценарій реального життя з PCA / FA, коли одне необхідно використовувати над іншим. Зазвичай PCA або FA ніколи не є кінцевою метою - Наприклад, наприклад, в соціальних науках, кінцевою метою буде сегментація предметів на різні кластери / групи. Моя відповідь стосується таких сценаріїв. У випадку, якщо ви думаєте, мою відповідь можна покращити, не соромтесь вказати.
kasa

Я думаю, що ваша відповідь може стати дійсно актуальною, якщо ви поясните свої висновки. Ви стверджуєте, що відмінності між PCA та FA є властивими для двох методів (лише вони стають очевидними при кластеризації). Я думаю, вам слід показати або принаймні придумати, як або чому теоретично виникають відмінності від відмінностей моделей методів.
ttnphns
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.