Основне, але своєрідне кропітке пояснення аналізу PCA vs Factor за допомогою розсіювачів в логічних кроках. (Я дякую @amoeba, який у своєму коментарі до запитання запропонував мені опублікувати відповідь замість того, щоб посилатися на інші місця. Отже, тут є дозвілля, пізня відповідь.)
PCA як змінний підсумок (вилучення функції)
Сподіваюся, ви вже розумієте PCA. Відроджуватися зараз.
Припустимо, у нас є співвідносні змінні та . Ми центруємо їх (віднімаємо середнє значення) і робимо розсіювач. Потім ми виконуємо PCA на цих централізованих даних. PCA - це форма обертання осей, яка пропонує осі P1 і P2 замість V1 і V2. Ключова властивість PCA є те , що P1 - називається першим основний компонент - отримує орієнтовано таким чином, що дисперсія точок даних по ній розгорнуто. Нові осі - це нові змінні, значення яких можна обчислити, доки ми знаємо коефіцієнти обертання (PCA надає їх) [ Eq.1 ]:V1V2a
P1=a11V1+a12V2
P2=a21V1+a22V2
Ці коефіцієнти є косинусами обертання (= косинуси напрямків, головні напрямки) і містять ті, що називаються власними векторами, тоді як власні значення матриці коваріації є основними дисперсіями компонентів. У PCA ми, як правило, відкидаємо слабкі останні компоненти: таким чином ми узагальнюємо дані за кількома першими вилученими компонентами з невеликими втратами інформації.
Covariances
V1 V2
V1 1.07652 .73915
V2 .73915 .95534
----PCA----
Eigenvalues %
P1 1.75756 86.500
P2 .27430 13.500
Eigenvectors
P1 P2
V1 .73543 -.67761
V2 .67761 .73543
За допомогою наших графічних даних, значення компонентів (балів) P1 P1 = .73543*V1 + .67761*V2
та компонента P2 ми відкидаємо. Дисперсія P1 є 1.75756
, то першим власним значенням матриці коваріації, і тому P1 пояснює 86.5%
в загальній дисперсії , яка дорівнює (1.07652+.95534) = (1.75756+.27430)
.
PCA як змінний прогноз ("латентна" особливість)
Отже, ми відкинули P2 і очікуємо, що P1 може лише розумно представляти дані. Це рівнозначно тому, що може досить добре "реконструювати" або передбачити та [ Eq.2 ]:P1 V1V2
V1=a11P1+E1
V2=a12P1+E2
де коефіцієнти це те, що ми вже знаємо, а - помилки (непередбачуваність). Це фактично "регресійна модель", де спостережувані змінні прогнозуються (назад) латентною змінною (якщо дозволити називати компонент "латентним") P1, витягнутим із тих самих змінних. Подивіться на графік Fig.2 , це не що інше, як фіг.1 , лише детально:aE
Вісь P1 показана плиткою зі своїми значеннями (P1 балів) зеленим кольором (ці значення - проекції точок даних на P1). Деякі довільні точки даних були позначені A, B, ..., а їх відхід (похибка) від P1 є жирними чорними роз'ємами. Для точки A наведено деталі: координати балів P1 (зелені A) на осі V1 і V2 - значення, відремонтовані P1 V1 і V2 відповідно до рівня 2 , і . Помилки відновлення та також відображаються, бежевим . Довжина квадрата "помилки" в квадраті - це сума двох помилок у квадраті, згідно Пифагорею.V1^=a11P1V2^=a12P1E1=V1−V1^E2=V2−V2^
Тепер, що характерно для PCA, це те, що якщо ми обчислимо E1 і E2 для кожної точки даних і побудуємо ці координати - тобто зробимо розсіювач помилок самостійно, хмарні "дані про помилки" збігатимуться з відкинутим компонентом P2. І це так: хмара побудована на тій же картині, що і бежева хмара, - і ви бачите, що вона фактично утворює вісь P2 (на фіг.1 ) як плитку з компонентами P2.
Недарма, скажете ви. Це так очевидно: у PCA відмінений молодший компонент (и) - це те, що точно розкладається (-и) в помилках прогнозування E, в моделі, яка пояснює (відновлює) оригінальні змінні V за латентною ознакою (ами) P1. Помилки E разом складають лівий компонент (и). Ось де факторний аналіз починає відрізнятися від PCA.
Ідея загальної ФА (латентна особливість)
Формально модель прогнозування маніфестних змінних за вилученими прихованими ознаками є такою ж у FA, як у PCA; [ Рівень 3 ]:
V1=a1F+E1
V2=a2F+E2
де F - прихований загальний фактор, витягнутий з даних і замінює той, що був P1 у рівнянні 2 . Різниця в моделі полягає в тому, що в FA, на відміну від PCA, змінні помилок (E1 і E2) повинні бути некорельованими між собою .
Відступ . Тут я хочу раптом перервати історію і скласти уявлення про те, що таке коефіцієнти . У PCA ми говорили, що це записи власних векторів, виявлені в PCA (за допомогою розкладання власного чи сингулярного значення). У той час як латентний Р1 мав свою первісну дисперсію. Якщо ми вирішимо стандартизувати P1 до одиниці дисперсії, нам доведеться компенсувати відповідним масштабуванням коефіцієнти , щоб підтримати рівняння. Те, що збільшується s, називають навантаженнями ; вони представляють інтерес чисельно, оскільки вони є коваріаціями (або співвідношеннями) між прихованою та спостережуваними змінними, і тому можуть допомогти інтерпретувати приховану ознаку. В обох моделях - Eq.2 і Eq.3aaa- Ви вільні вирішувати, не завдаючи шкоди рівнянню, яким способом масштабувати терміни. Якщо F (або P1) вважається одиницею масштабування, завантажується; тоді як якщо F (P1) повинен мати свою основну шкалу (дисперсію), то слід відповідно зменшити масштаб - у PCA, який буде рівним записам власного вектора, але в FA вони будуть іншими і зазвичай не називаються "власними векторами". У більшості текстів на факторному аналізі, F передбачаються одинична дисперсія так ARE навантаження . У літературі PCA, Р1 , як правило , мають свою обговорювали реальну дисперсію і так є власними векторами.aaaa
Добре, поверніться до нитки. E1 та E2 є некорельованими при факторному аналізі; таким чином, вони повинні утворювати хмару помилок або круглої, або еліптичної, але не орієнтованої по діагоналі. Перебуваючи в PCA, їх хмара утворює пряму, що збігається з діагонально йде P2. Обидві ідеї продемонстровані на малюнку:
Зауважте, що помилки - це кругла (не діагонально витягнута) хмара у FA. Фактор (латентний) у FA орієнтований дещо інакше, тобто не правильно перший основний компонент, який є "латентним" у PCA. На рис, лінія факторів дивно трохи конічна - стане зрозуміло, чому врешті-решт.
У чому сенс цієї різниці між PCA та FA? Змінні корельовані, що видно у діагонально еліптичній формі хмари даних. Р1 скинув максимальну дисперсію, тому еліпс спільно спрямований на Р1. Отже, P1 сама по собі пояснила кореляцію; але це не пояснило належної кількості кореляції ; Мабуть, пояснюється зміна точок даних, а не кореляція. Насправді, це переоцінило кореляцію, результатом якої стала поява діагональної, корельованої хмари помилок, яка компенсує надмірний рахунок. Сам P1 не може пояснити міцність кореляції / коваріації комплексно. Фактор F можеробити це поодинці; і умова, коли вона стає здатною зробити це саме там, де помилки можна змусити бути некорельованими. Оскільки хмара помилок кругла, після вилучення фактора не залишається кореляційної кореляції - позитивної чи негативної, отже, саме цей фактор проскочив усе.
Як зменшення розмірності, PCA пояснює дисперсію, але пояснює кореляції неточно. FA пояснює кореляції, але не може врахувати (за загальними чинниками) стільки варіацій даних, скільки PCA. Коефіцієнт (и) у ФА враховують ту частину мінливості, яка є чистою кореляційною частиною, що називається спільністю ; і тому фактори можна інтерпретувати як реальні, але непомітні сили / особливості / риси, які ховаються "в" або "позаду" вхідних змінних, щоб привести їх у співвідношення. Тому що вони коректно пояснюють кореляцію математично. Основні компоненти (декілька перших) пояснюють це математично не так добре, і тому їх можна назвати "прихованою ознакою" (або такою) лише в деякому розрізі і орієнтовно .
Множення навантажень - це те, що пояснює (відновлює) кореляцію, або кореляційність у вигляді коваріації - якщо аналіз базувався на матриці коваріації (як у зовнішньому прикладі), а не на кореляційній матриці. Факторний аналіз, який я робив з отриманими даними a_1=.87352, a_2=.84528
, тому продукт a_1*a_2 = .73837
майже дорівнює коваріації .73915
. З іншого боку, навантаження PCA були a1_1=.97497, a1_2=.89832
, тому значно a1_1*a1_2 = .87584
завищуються .73915
.
Пояснивши основну теоретичну відмінність PCA від FA, повернемося до наших даних, щоб пояснити цю ідею.
FA: приблизне рішення (коефіцієнт)
Нижче наведено розсіювач, що показує результати аналізу, який ми умовно називатимемо «оптимальним факторним аналізом», рис.3 .
A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).
Див. Виїзди з фіг.2 ПКС. Бежева хмара помилок не кругла, вона діагонально еліптична, - але, очевидно, набагато жирніше, ніж тонка діагональна лінія, що відбулася в PCA. Зауважимо також, що роз'єми помилок (показані для деяких точок) вже не паралельні (у PCA вони за визначенням були паралельними P2). Більше того, якщо ви подивитесь, наприклад, на точки "F" і "E", які лежать дзеркалом симетрично над віссю F фактора , ви несподівано виявите, що їх відповідні коефіцієнти мають зовсім інші значення. Іншими словами, множники факторів - це не просто лінійно перетворені головні компоненти компонентів: коефіцієнт F по-своєму відрізняється від способу P1. І їх осі не повністю збігаються, якщо їх зображено разом на одному сюжеті Рис.4 :
Крім того, що вони дещо інакше орієнтовані, F (як викладений плитками) є коротшим, тобто на нього припадає менша дисперсія, ніж P1. Як зазначалося раніше, фактор пояснює лише мінливість, яка відповідає за кореляцію V1 V2, тобто частину загальної дисперсії, достатню для приведення змінних від первинної коваріації 0
до фактичної коваріації .73915
.
FA: оптимальне рішення (справжній фактор)
Оптимальне рішення коефіцієнта - коли помилки круглої або недіагональної еліптичної хмари: E1 і E2 повністю некорельовані . Факторний аналіз фактично повертає таке оптимальне рішення. Я не показував це на простому розсіювачі, як описано вище. Чому я? - бо це було б найцікавіше, зрештою.
Причина в тому, що неможливо було б достатньо адекватно показати на розсипці, навіть прийнявши 3D-сюжет. Це теоретично досить цікавий момент. Для того, щоб зробити E1 і E2 повністю некорельованими, виявляється, що всі ці три змінні F, E1, E2 повинні лежати не в просторі (площині), визначеному V1, V2; і три повинні бути неспорідненими один з одним . Я вважаю, що можна намалювати таку розсипку в 5D (а може, і з якоюсь трюком - в 4D), але ми живемо в 3D-світі, на жаль. Фактор F повинен бути некорельованим як з E1, так і з E2 (хоча вони двоє теж є некорельованими), оскільки F повинен бути єдиним (чистим) і повним джерелом кореляції у спостережуваних даних. Аналіз чинника розщеплюється загальна дисперсія зp
вхідні змінні на дві неспоріднені (неонові частини) частини: спільність частини ( m
-вимірна, де m
правило загальних факторів) та частина унікальності ( p
-вимірність, де помилки, також звані унікальними чинниками, взаємно некорельовані).
Тож вибачте за те, що тут не показано справжній фактор наших даних на розсипці. Це можна було візуалізувати досить адекватно за допомогою векторів у "предметному просторі", як це робиться тут, не показуючи точок даних.
Вище в розділі "Ідея загальної FA (прихованої ознаки)" я показав фактор (вісь F) як клин, щоб попередити, що справжня вісь фактора не лежить на площині V1 V2. Це означає, що - на відміну від основного компонента P1 - фактор F як вісь не є поворотом осі V1 або V2 в їх просторі, а F як змінна не є лінійною комбінацією змінних V1 і V2. Тому F моделюється (витягується зі змінних V1 v2) так, ніби зовнішня незалежна змінна, а не їх похідне. Такі рівняння, як рівняння 1, з якого починається PCA, є непридатними для обчислення істинного (оптимального) коефіцієнта при факторному аналізі, тоді як формально ізоморфні рівняння рівняння 2 та рівняння 3справедливі для обох аналізів. Тобто, у змінних PCA генеруються компоненти та компоненти, що передбачують змінні; у факторах FA генерують / прогнозують змінні, а не назад - загальноприйнята факторна модель концептуально передбачає це , навіть якщо технічні фактори витягуються із спостережуваних змінних.
Не тільки істинний чинник не залежить від виявленої змінних істинного фактора значення є не визначені однозначно . Іншими словами, вони просто невідомі. Все це пов'язано з тим, що ми знаходимося в надмірному 5D аналітичному просторі, а не в нашому домашньому 2D просторі даних. Для нас є лише хороші наближення (існує низка методів ) до справжніх значень факторів, які називаються факторними оцінками . Факторні бали лежать у площині V1 V2, як і головні складові компоненти, вони також обчислюються як лінійні функції V1, V2, і це були вонищо я побудував у розділі "ФА: приблизне рішення (бали факторів)". Основні бали компонентів - справжні значення компонентів; бали факторів є лише розумним наближенням до невизначених істинних значень фактора.
FA: перелік процедури
Зібрати в один невеликий згусток те, що було сказано в двох попередніх розділах, і додати остаточні штрихи. Насправді, ФА може ( якщо ви зробите це правильно, а також див. Припущення щодо даних ) знайти справжнє факторне рішення (під "істинним" я маю на увазі тут оптимальне для вибірки даних). Однак існують різні методи видобутку (вони відрізняються деякими вторинними обмеженнями, які вони ставлять). Справжнє факторне рішення - лише до навантажень . Таким чином, навантаження є оптимальними, справжніми чинниками. Факторні бали - якщо вони вам потрібні - піддаються обчислюванню з цих навантажень різними способами і повертають наближення до значень коефіцієнта.a
Таким чином, "факторне рішення", відображене мною у розділі "ФА: приблизне рішення (коефіцієнт)", фактично базувалося на оптимальних навантаженнях, тобто на справжніх факторах. Але бали не були оптимальними за долею. Оцінки обчислюються як лінійна функція спостережуваних змінних, подібно до компонентних балів, тому їх обидва можна порівняти на розсипці, і я зробив це в дидактичному пошуку, щоб показати, як поступовий перехід від ідеї PCA до ідеї FA.
Потрібно бути обережними, будуючи графіки на одних і тих же навантажувачах біплот з коефіцієнтами фактора в "просторі факторів", пам'ятати , що навантаження стосуються справжніх факторів, а оцінки - сурогатних факторів (дивіться мої коментарі до цієї відповіді в цій темі).
Обертання факторів (навантажень) допомагає інтерпретувати приховані особливості. Обертання навантажень може бути здійснено також у PCA, якщо ви використовуєте PCA як би факторний аналіз (тобто розглядайте PCA як змінне прогнозування). PCA має тенденцію до зближення результатів з FA, коли кількість змінних зростає (див. Надзвичайно багату нитку щодо практичної та концептуальної подібності та відмінності між двома методами). Дивіться мій список відмінностей між PCA та FA в кінці цієї відповіді . Покрокові обчислення PCA vs FA на наборі даних райдужної оболонки можна знайти тут . Існує значна кількість хороших посилань на відповіді інших учасників по темі поза цією темою; Вибачте, що я використовував лише декілька з них у поточній відповіді.
Дивіться також список куль різниць між PCA та FA тут .