Чи є якісь вагомі причини використовувати PCA замість EFA? Також може PCA бути заміною факторного аналізу?


73

У деяких дисциплінах PCA (аналіз основних компонентів) систематично використовується без будь-якого обґрунтування, а PCA та EFA (дослідницький факторний аналіз) розглядаються як синоніми.

Тому я нещодавно використовував PCA для аналізу результатів перевірки масштабу (21 пункт за 7-бальною шкалою Лікерта, передбачається складати 3 коефіцієнта по 7 предметів), і рецензент запитує мене, чому я обрав PCA замість EFA. Я читав про відмінності між обома методами, і, здається, що у більшості ваших відповідей тут EFA виступає проти PCA.

Чи є у вас якісь вагомі причини, чому PCA був би кращим вибором? Які б вигоди вона могла б надати і чому це може бути мудрим вибором у моєму випадку?


1
Чудове запитання. Я схильний не погоджуватися з відповіддю ttnphns і спробую надати альтернативний погляд пізніше сьогодні.
амеба

5
@amoeba Я заздалегідь вболіваю за тебе. PCA - це лише техніка перетворення, яка може бути (іноді, дуже) корисною. Немає потреби демонізувати його чи приписувати йому хибні чи невідповідні наміри. Ви також можете викривити логарифм.
Нік Кокс

4
Схоже, що відповідь ttnphns демонструє PCA. Мені здається, він просто стверджує, що PCA не ґрунтується на припущенні прихованих змінних, що генерують ваші дані, тож якщо ви це намагаєтесь зробити, FA - кращий вибір.
gung

1
FWIW, я не коментував конкретно відповідь ttphns, але в коментарях та критиці я часто стикаюся, що становить суму звинувачень у тому, що PCA не робить те, для чого вона ніколи не була призначена або не підходить.
Нік Кокс

3
@NeilG: PCA не є [імовірнісною] генеративною моделлю, тому що вона не включає термін шуму і тому з ним немає ймовірності. Хоча існує ймовірнісне узагальнення (PPCA), і воно дуже тісно пов'язане з PCA, дивіться мою відповідь тут.
амеба

Відповіді:


95

Відмова: @ttnphns дуже добре знає як PCA, так і FA, і я поважаю його думку і багато чого дізнався з багатьох чудових відповідей на цю тему. Однак я схильний не погоджуватися з його тут відповіді, а також з іншими (численними) публікаціями на цю тему тут на CV, не тільки його; а точніше, я думаю, що вони обмежені в застосуванні


Я думаю, що різниця між PCA і FA є завищеною.

Подивіться на це так: обидва методи намагаються забезпечити наближення низького рангу даної коваріаційної (або кореляційної) матриці. "Низький ранг" означає, що використовується лише обмежена (низька) кількість прихованих факторів або основних компонентів. Якщо матриця коваріації даних є , то моделями є:Cn×nC

PCA:CWWPPCA:CWW+σ2IFA:CWW+Ψ

Тут - матриця з стовпцями (де зазвичай обирається невеликою кількістю, ), що представляє основних компонентів або факторів, - матриця ідентичності, а - діагональ матриця. Кожен метод може бути сформульований як пошук (та решта), мінімізуючи [норму] різниці між лівою та правою стороною. k k k < n k I Ψ WWkkk<nkIΨW

PPCA розшифровується як імовірнісний PCA , і якщо ви не знаєте, що це таке, це поки що не має великого значення. Я хотів це зазначити, оскільки він акуратно вписується між PCA та FA, маючи проміжну складність моделі. Він також ставить перед собою нібито велику різницю між PCA і FA в перспективу: навіть якщо це імовірнісна модель (точно як FA), вона фактично виявляється майже еквівалентною PCA ( охоплює той самий підпростір).W

Найголовніше, зверніть увагу , що моделі відрізняються тільки в тому , як вони ставляться до діагоналі . Зі збільшенням розмірності діагональ стає дещо менш важливою (тому що на діагоналі є лише елементів, а елементи від діагоналі). Як результат, для великих зазвичай взагалі не велика різниця між PCA та FA, спостереження, яке рідко оцінюється. Для малих вони дійсно можуть сильно відрізнятися. n n n ( n - 1 ) / 2 = O ( n 2 ) n nCnnn(n1)/2=O(n2)nn

Тепер, щоб відповісти на ваше головне питання, чому, здається, люди в деяких дисциплінах віддають перевагу PCA. Я думаю, це зводиться до того, що це математично набагато простіше, ніж ФА (це не очевидно з наведених формул, тому ви повинні мені тут повірити):

  1. PCA - як і PPCA, який лише трохи відрізняється, - має аналітичне рішення, тоді як FA - ні. Таким чином, ФА має бути чисельним пристосованим, існують різні алгоритми їх виконання, даючи, можливо, різні відповіді та діючи при різних припущеннях і т. Д. І т.д. Для PCA ви виконуєте власне розкладання, і ви закінчите; FA набагато брудніше.

    Технічно PCA просто обертає змінні, і саме тому можна називати це просто перетворенням, як це робив @NickCox у своєму коментарі вище.

  2. Рішення PCA не залежить від : ви можете знайти перші три ПК ( ), і перші два з них будуть ідентичними тим, які ви знайдете, якщо ви спочатку встановили . Це не вірно для FA: рішення для не обов'язково міститься всередині рішення для . Це контрінтуїтивно та заплутано.k = 3 k = 2 k = 2 k = 3kk=3k=2k=2k=3

Звичайно, FA - більш гнучка модель, ніж PCA (адже вона має більше параметрів) і часто може бути кориснішою. Я не сперечаюся з цим. Те , що я маю аргументи проти, є твердження , що вони концептуально дуже різні з PCA бути про «описує дані» і FA бути про «пошук прихованих змінних». Я просто не бачу, що це взагалі так правдиво [майже].

Щоб коментувати деякі конкретні моменти, згадані вище, та у пов'язаних відповідях:

  • "в PCA кількість вимірів для вилучення / збереження є принципово суб'єктивною, тоді як в EFA кількість фіксована, і вам зазвичай доведеться перевірити кілька рішень" - ну, вибір рішення все ще суб'єктивний, тому я не дивіться будь-яку концептуальну різницю тут. В обох випадках (суб'єктивно чи об'єктивно) вибирається для оптимізації компромісу між підходом моделі та складністю моделі.k

  • "FA здатний пояснити попарні кореляції (коваріації). PCA, як правило, не може цього зробити" - не дуже, обидва вони пояснюють кореляції все краще і краще, коли зростає.k

  • Іноді виникає додаткова плутанина (але не у відповідях @ ttnphns!) Через різні практики в дисциплінах, що використовують PCA та FA. Наприклад, поширена практика повороту факторів у ФА для поліпшення інтерпретації. Це рідко робиться після PCA, але в принципі нічого не заважає. Тому люди часто схильні думати, що ФА дає вам щось "інтерпретаційне", а PCA - ні, але це часто ілюзія.

Нарешті, дозволю ще раз наголосити, що для дуже малих різниці між PCA і FA дійсно можуть бути великими, і, можливо, деякі претензії на користь FA робляться з малим на увазі. Як крайній приклад, для один фактор завжди може ідеально пояснити кореляцію, але один ПК може зробити це досить погано.n n = 2nnn=2


Оновлення 1: генеративні моделі даних

З числа коментарів видно, що те, що я кажу, вважається суперечливим. Загрожуючи затопити розділ коментарів ще більше, ось деякі зауваження щодо "моделей" (див. Коментарі @ttnphns та @gung). @ttnphns не подобається, що я використав слово "модель" [матриці коваріації] для позначення вище наближених; це питання термінології, але те, що він називає "моделями", є імовірнісними / генеративними моделями даних :

PPCA:x=Wz+μ+ϵ,ϵN(0,σ2I)FA:x=Wz+μ+ϵ,ϵN(0,Ψ)

Зауважимо, що PCA не є ймовірнісною моделлю, і її не можна сформулювати таким чином.

Різниця між PPCA і FA полягає в шумовому терміні: PPCA приймає однакову дисперсію шуму для кожної змінної, тоді як FA передбачає різні дисперсії ("однозначності"). Ця незначна різниця має важливі наслідки. Обидві моделі можуть відповідати загальному алгоритму максимізації очікувань. Для FA невідомо аналітичного рішення, але для PPCA можна аналітично отримати рішення, до якого ЕМ буде конвергуватися (обидва та ). Виявляється, має стовпці в тому ж напрямку, але меншої довжини, ніж стандартні завантаження PCA (опускаю точні формули). З цієї причини я вважаю PPCA "майже" PCA:Ψ i i σ 2 W W P P C A W P C A Wσ2Ψiiσ2WWPPCAWPCAW в обох випадках охоплює один і той же "головний підпростір".

Доказ ( Tipping and Bishop 1999 ) трохи технічний; Інтуїтивно зрозуміла причина, чому однорідна дисперсія шуму призводить до набагато простішого рішення, полягає в тому, що має ті ж власні вектори, що і для будь-якого значення , але це не вірно для .C σ 2 C - ΨCσ2ICσ2CΨ

Так що так, @gung і @ttnphns мають рацію в тому, що FA базується на генеративній моделі, а PCA - ні, але я думаю, що важливо додати, що PPCA також базується на генеративній моделі, але "майже" еквівалентна PCA . Тоді це перестає здаватися такою важливою різницею.


Оновлення 2: як PCA забезпечує найкраще наближення до коваріаційної матриці, коли добре відомо, що шукає максимальну дисперсію?

PCA має дві еквівалентні рецептури: наприклад, перший ПК - це (а) максимізація дисперсії проекції та (b) та, яка забезпечує мінімальну помилку відновлення. Більш абстрактно, еквівалентність між максимізацією дисперсії та мінімізацією похибки відновлення можна побачити за допомогою теореми Еккарта-Юнга .

Якщо - матриця даних (із спостереженнями як рядки, змінні як стовпці та стовпці вважаються центральними) і її розкладання SVD є , то це добре відомо, що стовпці є власними векторами матриці розсіювання (або коваріаційної матриці, якщо ділити на кількість спостережень) тому вони є осями, що максимізують дисперсію (тобто головні осі). Але згідно з теоремою Екарта-Янга, перші ПК забезпечують найкраще наближення до :XX=USVVC=XX=VS2VkkXXk=UkSkVk(це позначення означає брати лише найбільших сингулярних значень / векторів) мінімізує .kXXk2

Перші ПК забезпечують не тільки кращий rank- наближення до , а й ковариационной матриці . Дійсно, , а останнє рівняння забезпечує розкладання SVD (тому що є ортогональним і - діагональна). Отже, теорема Еккерта-Янга говорить нам, що найкраще наближення до задається через . Це можна перетворити, помітивши цеk X C C = XX = V S 2 VC V S 2 k C C k k = V k S 2 k V k W = V S C k = V k S 2 k V k = ( V S ) k ( V S ) k = WkkXCC=XX=VS2VCVS2kCCk=VkSk2VkW=VS - завантаження PCA, і тому

Ck=VkSk2Vk=(VS)k(VS)k=WkWk.

Суть тут полягає в тому, що як зазначено на початку.

minimizing{CWW2CWWσ2I2CWWΨ2}leadsto{PCAPPCAFA}loadings,

Оновлення 3: числова демонстрація того, що PCA FA, колиn

Мене @ttnphns мені спонукало представити чисельну демонстрацію мого твердження, що у міру зростання розмірності рішення PCA наближається до рішення FA. Ось це іде.

Я створив матричну випадкову кореляційну матрицю з деякими сильними позадіагональними кореляціями. Потім я взяв верхній лівий квадратний блок цієї матриці з змінних для дослідження ефекту розмірності. Для кожного я виконував PCA і FA з кількістю компонентів / факторів , і для кожного я обчислював помилку недіагональної реконструкції (зауважте, що по діагоналі FA ідеально реконструює за рахунок200×200 n×nCn=25,50,200nk=15k

ij[CWW]ij2
CΨтермін, тоді як PCA ні; але діагональ тут ігнорується). Тоді для кожного та я обчислював відношення міждіагональної помилки PCA до похибки діагоналі FA. Цей коефіцієнт повинен бути вище , оскільки ФА забезпечує найкращу можливу реконструкцію.nk1

Помилка міждіагональної реконструкції PCA vs FA

Праворуч різні лінії відповідають різним значенням , а зображено на горизонтальній осі. Зверніть увагу, що по мірі зростання співвідношення (для всіх ) наближаються до , тобто PCA і FA дають приблизно однакові навантаження, PCA FA. При відносно малих , наприклад, коли , PCA працює [очікувано] гірше, але різниця не така сильна для малого , і навіть для співвідношення нижче .knnk1nn=25kk=51.2

Коефіцієнт може стати великим, коли кількість факторів стане порівнянним із кількістю змінних . У наведеному вище прикладі з і , FA досягає помилок відновлення, тоді як PCA - немає, тобто співвідношення було б нескінченним. Але повернуся до початкового питання, при і , PCA будуть тільки помірно програють FA в поясненні недіагональні частини .knn=2k=10n=21k=3C

Для ілюстрованого прикладу PCA та FA, застосованого до реального набору даних (винний набір даних з ), дивіться мої відповіді тут:n=13


2
Я збирався задати питання про математичну різницю між прийомами, оскільки більшість (інакше відмінні) відповідей на цю тему не роблять явних математичних порівнянь. Ця відповідь саме те , що я шукав.
shadowtalker

2
Це дуже цінний, розгорнутий рахунок із новими перспективами. Визначення PPCA як методики проміжного періоду є надзвичайно важливим - саме звідки зростає ваша думка. Чи можу я попросити вас залишити більше рядків про PPCA? - Що таке , як він оцінюється (коротко) і чим він відрізняється від щоб КПП (на відміну від факторів) заповнювали підпростір змінних, а КПП не залежить від . σ2Ψk
ttnphns

3
Я продовжую погоджуватись w / ttnphns тут, і відмінність того, що FA базується на прихованих змінних, тоді як PCA - це лише перетворення даних. Однак це дуже добре аргументоване і корисна протилежна позиція. Це сприяє якості цієї нитки. +1
gung

5
@amoeba ВАШ ВІДПОВІДЬ ВЕЛИКИЙ. Це так ясно і втішно. Дякуємо, що поділилися своїм баченням.
Subhash C. Davar

2
@ user795305 Вибачте, я забув відповісти. Модель FA, написана в оновлення 1, є правильною. Схований дійсно повинен бути з і незалежним від . Рішення ML для та насправді НЕ мінімізують норму як я писав у оновлення 2; це було неохайно і неправильно. Я повинен це виправити, дякую. Однак, я думаю, що це нормально, щоб сказати, що рішення ML таке, що ; просто функція втрат тут не є нормою різниці, а більш складним виразом (вірогідність задається ). zN(0,I)ϵWΨCWWΨCWW+ΨCWW+Ψ
амеба

27

Як ви сказали, ви знайомі з відповідними відповідями ; див. також : So, as long as "Factor analysis..."+ пару останніх абзаців; і нижній список тут . Коротше кажучи, PCA - це здебільшого техніка зменшення даних, тоді як FA - це метод моделювання латентних рис. Іноді трапляються подібні результати; але у вашому випадку - тому що ви, мабуть, відчуваєте, як будувати / перевіряти приховані риси, як ніби реальні особи - використання FA було б чесніше, і вам не слід віддавати перевагу PCA, сподіваючись, що їх результати збігаються. З іншого боку, щоразу, коли ви прагнете узагальнити / спростити дані - наприклад, для подальшого аналізу, - ви віддасте перевагу PCA, оскільки це не нав'язує жодних сильних моделей (що може бути неактуальним) для даних.

Щоб повторити інший спосіб, PCA надає вам розміри, які можуть відповідати деяким суб'єктивно значимим конструкціям, якщо ви хочете, в той час як EFA вважає, що це навіть приховані функції, які фактично генерували ваші дані, і він спрямований на пошук цих особливостей. У FA інтерпретація розмірів (факторів) очікує - ви можете приєднати значення до латентної змінної чи ні, воно "існує" (FA є суттєвим), інакше вам слід скинути його з моделі або отримати більше даних для підтримки це. У PCA значення розмірності необов’язкове.

І ще раз іншими словами: Коли витягуєте m фактори (окремі фактори від помилок), ці декілька факторів пояснюють (майже) всю кореляцію між змінними, так що змінні не залишаються місцями для кореляції через помилки. Тому, поки "фактори" визначаються як приховані ознаки, які генерують / зв'язують корельовані дані, у вас є повні підказки для тлумачення цього - що відповідає за кореляції. У PCA (витягують компоненти як би "фактори") помилки (можуть) все ще корелюють між змінними; тож ви не можете стверджувати, що ви видобули щось досить чисте і вичерпне, щоб його трактували таким чином.

Ви можете прочитати мою іншу більш довгу відповідь у поточній дискусії, щоб отримати деякі теоретичні та імітаційні експерименти щодо того, чи PCA є життєздатною заміною FA. Зверніть увагу також на видатні відповіді @amoeba, наведені на цій темі.


Вгору : У своїй відповіді на це запитання @amoeba, який виступив проти, ввів (не добре відому) техніку PPCA, що стоїть на півдорозі між PCA та FA. Це, природно, запустило логіку, що PCA і FA проходять по одній лінії, а не протилежно. Цей цінний підхід розширює теоретичний кругозір. Але це може приховати важливу практичну відмінність того, що ФА реконструює (пояснює) всі парні коваріації з кількома факторами, в той час як PCA не може це зробити успішно (і коли це відбувається періодично - це тому, що це трапилося з mime FA).


Дякую за вашу відповідь! Результати ФА фактично здебільшого збігаються з результатами, отриманими за допомогою PCA. Єдине: автори початкового дослідження (моє - це переклад + перевірка) використовували аналіз PCA. Чи достатньо цього для збереження аналізу PCA в моєму документі і, можливо, додати речення, що пояснює, що результати FA збігаються, або я повинен замінити PCA на FA? Зауважте, що рецензент насправді не просить нас прямо зробити це, він лише просить обґрунтувати, чому ми обрали PCA замість FA.
Карін

Я думаю: якщо автори застосували PCA, але більш суворий / чесний підхід вимагає отримання EFA, у їхньому випадку вам слід відмовитися від критики, а потім виконати PCA або PCA і EFA, щоб порівняти результати.
ttnphns

2
Відзначимо також різницю, що в PCA кількість розмірів для вилучення / збереження є принципово суб'єктивною, тоді як в EFA число фіксоване, і вам зазвичай доведеться перевірити кілька рішень, наприклад 3, хоча й 5 факторів, на ступінь того, наскільки вони відтворити кореляційну матрицю та наскільки вони добре інтерпретовані. FA є більш стомлюючим, тому люди часто віддають перевагу робити PCA у тих випадках, коли сумлінний підхід закликає спробувати ряд пропусків EFA.
ttnphns

Також дивіться запис у Вікіпедії: en.wikipedia.org/wiki/…
RobertF

15

У цій своїй відповіді (друга та додаткова до моєї іншої тут) я спробую показати на фотографіях, що PCA не відновлює коваріацію жодної свердловини (тоді як вона відновлює - максимізує - дисперсію оптимально).

Як і в ряді моїх відповідей на PCA або Factor аналіз, я звернусь до векторного представлення змінних у предметному просторі . У цьому випадку це лише графік завантаження із зазначенням змінних та їх завантаження компонентів. Таким чином, ми отримали та змінних (у наборі даних було лише дві), їх перший основний компонент із завантаженнями та . Кут між змінними також позначений. Змінні були по центру попередніми, тому їх довжини у квадраті, та - їх відповідні відхилення.X1X2Fa1a2h12h22

введіть тут опис зображення

Коваріація між і - це їх скалярний добуток - (до речі, цей косинус є значенням кореляції). Навантаження на PCA, звичайно, захопити максимально можливу частину загальної дисперсії по , то компонент дисперсії «s.X1X2h1h2cosϕh12+h22a12+a22F

Тепер коваріація , де - проекція змінної на змінну (проекція, яка є прогнозом регресії першого на друге). Таким чином, величина коваріації могла бути відтворена площею прямокутника внизу (зі сторонами та ).h1h2cosϕ=g1h2g1X1X2g1h2

введіть тут опис зображення

Відповідно до так званої "теореми фактора" (може знати, якщо ви щось читали на факторному аналізі), коваріація (і) між змінними повинна бути (тісно, ​​якщо не точно) відтворена шляхом множення навантажень вилученої прихованої змінної (s) ( читати ). Це, наприклад, , в нашому конкретному випадку (якщо визнати головний компонент нашою латентною змінною). Це значення відтвореної коваріації може бути надано площею прямокутника зі сторонами та . Намалюємо для порівняння прямокутник, вирівняний попереднім прямокутником. Цей прямокутник зображений вилупився внизу, а його область отримала прізвисько cov * (відтворене cov ).a1a2a1a2

введіть тут опис зображення

Очевидно, що обидві області сильно відрізняються, cov * є значно більшим у нашому прикладі. Коваріацію переоцінили навантаження , 1-го головного компонента. Це суперечить тому, хто може сподіватися, що PCA, лише 1-й компонент з двох можливих, відновить спостережуване значення коваріації.F

Що ми могли зробити з нашим сюжетом, щоб посилити відтворення? Наприклад, ми можемо трохи обертати пучок за годинниковою стрілкою, навіть поки він не накладається на . Коли їхні рядки збігаються, це означає, що ми змусили бути нашою прихованою змінною. Тоді завантаження (проекція на нього) буде , а завантаження (проекція на нього) буде . Тоді два прямокутники - це той самий - той, на якому було позначено cov , і тому коваріація відтворюється ідеально. Однак , дисперсія, пояснена новою "прихованою змінною", менша, ніжFX2X2a2X2h2a1X1g1g12+h22a12+a22 , дисперсія пояснюється старою прихованою змінною, 1-ою основною складовою (квадрат і складіть сторони кожного з двох прямокутників на малюнку для порівняння). Схоже, нам вдалося відтворити коваріацію, але за рахунок пояснення кількості дисперсії. Тобто шляхом вибору іншої прихованої осі замість першого основного компонента.

Наша уява чи здогадка можуть підказати (я не можу і, можливо, не можу довести це математикою, я не математик), що якщо ми звільнимо приховану вісь із простору, визначеного та , площиною, що дозволяє їй розгойдувати трохи до нас, ми можемо знайти якесь оптимальне його положення - назвемо, скажімо, - завдяки чому коваріація знову відтворюється ідеально під час виникнення навантажень ( ), тоді як дисперсія пояснюється ( ) буде більше , ніж , хоча і не такий великий , як основного компонента .X1X2Fa1a2a12+a22g12+h22a12+a22F

Я вважаю , що ця умова є досяжним, особливо в тому випадку , коли прихована вісь отримує звертається , виступаючі з площини таким чином, щоб витягнути «капюшон» з двох отриманих ортогональних площин, одна з яких містить вісь і і інший містить вісь і . Тоді цю приховану вісь ми назвемо загальним фактором , і вся наша "спроба оригінальності" буде називатися факторним аналізом .FX1X2


Відповідь на "Оновлення 2" @ amoeba стосовно PCA.

@amoeba є правильним і актуальним, щоб згадати теорему Екарта-Янга, яка є основоположною для PCA та її конгенеричних методів (PCoA, біплот, кореспондентський аналіз) на основі SVD або власного розкладання. У відповідності з цим, перших головних осей оптимально мінімізувати - величина , що дорівнює , - а також . Тут позначає дані, відтворені основними осями . , як відомо, дорівнює , з бути змінні навантаження поkX||XXk||2tr(XX)tr(XkXk)||XXXkXk||2XkkXkXkWkWkWkk компоненти.

Чи означає це, що мінімізація залишається істинною, якщо розглядати лише недіагональні частини обох симетричних матриць? Давайте перевіримо це, експериментуючи.||XXXkXk||2

Створено 500 випадкових 10x6матриць (рівномірний розподіл). Для кожного, після центрування його стовпців, виконували PCA і обчислювали дві реконструйовані матриці даних : одну, як реконструйовано компонентами від 1 до 3 ( перший, як зазвичай у PCA), а інший як реконструйований компонентами 1, 2 , і 4 (тобто компонент 3 був замінений слабшим компонентом 4). Помилка реконструкції (сума квадратичної різниці = квадрат евклідової відстані) потім була обчислена для одного , для іншого . Ці два значення - пара, яку потрібно показати на розсипці.XXkk||XXXkXk||2XkXk

Помилка відновлення обчислювалася щоразу у двох версіях: (a) цілі матриці та порівняно; (b) лише позадіагоналі двох порівняних матриць. Таким чином, у нас є два розсіювачі, по 500 балів кожен.XXXkXk

введіть тут опис зображення

Ми бачимо, що на графіку «ціла матриця» всі точки лежать над y=xпрямою. Що означає, що реконструкція для всієї матриці скалярних продуктів завжди більш точна на "1 - 3 компоненти", ніж на "1, 2, 4 компоненти". Це узгоджується з теоремою Еккарта-Янга: перший основні компоненти - найкращі пристосування.k

Однак, коли ми дивимось на «лише діагоналі», ми помічаємо ряд точок нижче y=xлінії. Виявилося, що іноді реконструкція позадіагональних ділянок на "1 - 3 компоненти" була гіршою, ніж на "1, 2, 4 компоненти". Це автоматично призводить до висновку, що перші основні компоненти не є регулярно кращими монтажниками недіагональних скалярних виробів серед монтажників, доступних у PCA. Наприклад, використання слабшого компонента замість сильного може іноді покращити реконструкцію.k

Отже, навіть у самій області PCA , старші основні компоненти - які, як ми знаємо, приблизно наближаємось до загальної дисперсії, і навіть ціла матриця коваріації - не обов'язково наближають позадіагональні коваріації . Тому необхідна краща оптимізація цих питань; і ми знаємо, що факторний аналіз - це (або серед) методика, яка може її запропонувати.


Продовження "Оновлення 3" @ amoeba: Чи наближається PCA до ФА, оскільки кількість змінних зростає? Чи PCA є дійсною заміною FA?

Я провів решітки симуляційних досліджень. Декілька структур факторів сукупності, матриці завантаження були побудовані з випадкових чисел та перетворені у відповідні коваріаційні матриці сукупності як , при цьому є діагональним шумом (унікальний дисперсії). Ці матриці коваріації були зроблені з усіма відхиленнями 1, тому вони були рівні їх кореляційним матрицям.AR=AA+U2U2

Були розроблені два типи факторної структури - різка та дифузна . Гостра структура - це чітка проста структура: навантаження або "висока", "низька", не є проміжною; і (на мій дизайн) кожна змінна сильно завантажена саме одним фактором. Відповідний , отже, помітно блоковий. Дифузна структура не розмежовує великі та низькі навантаження: вони можуть бути будь-якими випадковими значеннями в межах зв'язаних; і жодна картина в межах навантажень не замислюється. Отже, відповідне стає більш плавним. Приклади матриць населення:RR

введіть тут опис зображення

Кількість факторів було або або . Кількість змінних визначали відношення k = кількість змінних на коефіцієнт ; k значення у дослідженні.264,7,10,13,16

Для кожного з небагато чого побудованого населення , її випадкові реалізації від розподілу Уішарт (під розміром вибірки були отримані). Це були зразкові коваріаційні матриці. Кожен з них був проаналізований факторним методом FA (шляхом вилучення основної осі), а також PCA . Крім того, кожна така матриця коваріації була перетворена у відповідну зразкову матрицю кореляції, яка також була проаналізована факторами (фактором) однаковими способами. Нарешті, я також виконував факторинг самої матриці "батьківська", коваріація (= кореляція) популяції. Міра адекватності відбору проб Кайзера-Мейєра-Олкіна завжди була вище 0,7.50R50n=200

Для даних, що мають 2 фактори, аналізи вилучили 2, а також 1, а також 3 фактори ("заниження" та "завищення" правильної кількості режимів факторів). Для даних, що мають 6 факторів, в аналізах було також вилучено 6, а також 4, а також 8 факторів.

Метою дослідження були якості відновлення коваріацій / кореляцій FA та PCA. Тому були отримані залишки позадіагональних елементів. Я зареєстрував залишки між відтвореними елементами та елементами матриці сукупності, а також залишки між колишнім та аналізованим елементом матриці вибірки. Залишки 1-го типу були концептуально цікавішими.

Результати, отримані після аналізу, проведеного на коваріації вибірки та на матрицях кореляції вибірки, мали певні відмінності, але всі основні висновки виявилися однаковими. Тому я обговорюю (показуючи результати) лише аналізів "кореляційного режиму".

1. Загальна позадіагональна відповідність PCA проти FA

На графіку нижче графіку, проти різної кількості факторів і різних k, відношення середнього квадратичного діагонального залишкового виходу в PCA до тієї ж кількості, що виходить у FA . Це схоже на те, що @amoeba показав у "Оновлення 3". Рядки на графіку представляють середні тенденції протягом 50 моделювання (я опускаю показ на них строків помилок).

(Примітка. Результати стосуються факторингу випадкових матриць кореляції вибірки , а не факторизування батьківської матриці популяції: нерозумно порівнювати PCA з FA щодо того, наскільки добре вони пояснюють матрицю сукупності - FA завжди виграє, і якщо вилучається правильна кількість факторів, її залишки будуть майже нульовими, і тому співвідношення буде кидатись до нескінченності.)

введіть тут опис зображення

Коментуючи ці сюжети:

  • Загальна тенденція: коли k (кількість змінних на фактор) зростає, загальний коефіцієнт підрядності PCA / FA зменшується до 1. Тобто, при більшій кількості змінних PCA наближається до FA при поясненні позадіагональних кореляцій / коваріацій. (Задокументовано @amoeba у своїй відповіді.) Імовірно, закон, що наближає криві, є співвідношенням = exp (b0 + b1 / k) з b0, близьким до 0.
  • Коефіцієнт більший за WT залишків "зразок мінус відтворений зразок" (лівий графік), ніж залишковий залишок "сукупність мінус відтворений зразок" (правий графік). Тобто (тривіально), PCA поступається FA в підгонці до матриці, що негайно аналізується. Однак рядки на лівій ділянці мають швидший темп зменшення, тому на k = 16 співвідношення також нижче 2, як і на правій ділянці.
  • Що стосується залишків «сукупності мінус відтворений зразок», то тенденції не завжди опуклі або навіть монотонні (незвичайні лікті показані круженими). Отже, поки мова йде про пояснення матриці коефіцієнтів популяції за допомогою вибірки факторів, збільшення кількості змінних не регулярно наближає PCA до FA у його придатній якості, хоча тенденція є.
  • Коефіцієнт більший для m = 2 факторів, ніж для m = 6 факторів у сукупності (жирні червоні лінії нижче жирних зелених ліній). Це означає, що при більшій кількості факторів, що діють у даних PCA, швидше наздоганяє FA. Наприклад, на правій ділянці k = 4 коефіцієнт виходу приблизно 1,7 для 6 факторів, тоді як однакове значення для 2 факторів досягається при k = 7.
  • Коефіцієнт вищий, якщо ми дістаємо більше факторів відносно справжнього числа факторів. Тобто PCA є лише дещо гіршим, ніж фактор, ніж FA, якщо при видобутку ми недооцінюємо кількість факторів; і він втрачає більше, якщо кількість факторів є правильним або завищеним (порівняйте тонкі лінії із жирними лініями).
  • Цікавий ефект різкості факторної структури, який з’являється лише в тому випадку, якщо ми вважаємо залишки «сукупністю мінус відтворений зразок»: порівняйте сірі та жовті ділянки справа. Якщо фактори популяції дифузно завантажують змінні, червоні лінії (m = 6 факторів) опускаються на дно. Тобто, у дифузній структурі (наприклад, завантаження хаотичних чисел) PCA (виконується на вибірці) лише на кілька гірше, ніж FA у реконструкції співвідношень чисельності населення - навіть за малих k, за умови, що кількість факторів у сукупності не відповідає дуже мало. Ймовірно, це умова, коли PCA найбільш близький до FA і є найбільш гарантійним як його замінник. Тоді як за наявності гострої факторної структури PCA не настільки оптимістичний у відновленні популяційних кореляцій (або коваріацій): він наближається до FA лише у великій k перспективі.

2. Елементний рівень, відповідний PCA проти FA: розподіл залишків

Для кожного імітаційного експерименту, де проводили факторинг (за PCA або FA) 50 випадкових матриць вибірки з матриці популяції, розподіл залишків "кореляція сукупності мінус відтворена (за факторингом) кореляція вибірки" для кожного недіагонального кореляційного елемента. Розподіл дотримувався чітких зразків, а приклади типових розподілів зображені праворуч нижче. Результати після факторингу PCA - сині ліві сторони, а результати після факторингу FA - зелені праві сторони.

введіть тут опис зображення

Основний висновок полягає в тому

  • Оголошені, за абсолютною величиною, кореляції популяції відновлюються за допомогою PCA неадекватно: відтворені значення завищені за величиною.
  • Але зміщення зникає, оскільки k (кількість змінних до числа факторів) збільшується. На рис., Коли на фактор є лише k = 4 змінних, залишки PCA поширюються в зсуві від 0. Це видно як при наявності 2 факторів, так і 6 факторів. Але при k = 16 зсув майже не видно - він майже зник і PCA-підхід наближається до придатності FA. Не спостерігається різниці у поширенні (дисперсії) залишків між PCA та FA.

Аналогічна картина спостерігається і тоді, коли кількість вилучених факторів не відповідає дійсній кількості факторів: лише дисперсія залишків дещо змінюється.

Наведені вище розподіли на сірому тлі стосуються експериментів із гострою (простою) факторною структурою, наявною у популяції. Коли всі аналізи були зроблені в ситуації дифузної структури факторів популяції, було встановлено, що зміщення PCA згасає не тільки зі зростанням k, але і зі зростанням m (кількості факторів). Будь ласка, дивіться зменшені вкладення жовтого фону до стовпця "6 коефіцієнтів, k = 4": для результатів PCA майже немає зміщення від 0 (зсув ще присутній з m = 2, що не показано на малюнку ).

Думаючи, що описані результати є важливими, я вирішив оглянути ці залишкові розподіли глибше і побудував графік розкиду залишків (вісь Y) проти значення елемента (кореляція сукупності) (вісь X). Кожен з цих розсіювачів комбінує результати багатьох (50) симуляцій / аналізів. Виділена лінія LOESS (50% місцевих точок для використання, ядро ​​Epanechnikov). Перший набір сюжетів стосується гострої факторної структури у сукупності (тримодальність кореляційних значень очевидна):

введіть тут опис зображення

Коментуючи:

  • Ми чітко бачимо (описане вище) зміщення реконструкції, яке характерне для PCA як перекосу, негативної льосової лінії тенденції: великі кореляції в абсолютних значеннях переоцінюються за допомогою PCA вибіркових наборів даних. FA є неупередженим (горизонтальний льос).
  • Зі збільшенням k ухил PCA зменшується.
  • PCA є упередженою незалежно від того, скільки факторів є в популяції: при наявності 6 факторів (і 6 витягнутих при аналізах) вона аналогічно дефектна, як і при наявності двох факторів (2 вилучених).

Другий набір сюжетів, наведених нижче, стосується структури дифузної факторної сукупності:

введіть тут опис зображення

Знову спостерігаємо упередження PCA. Однак, на відміну від різкого факторного фактора, ухил згасає, коли кількість факторів збільшується: з 6 факторами популяції лесові лінії ПСА не дуже далекі від горизонталі навіть під k лише 4. Це те, що ми виразили " жовті гістограми »раніше.

Одне цікаве явище для обох наборів розлітальних апаратів полягає в тому, що лесові лінії для PCA мають S-криву. Ця кривизна виявляється в інших структурах факторів популяції (навантажень), випадково побудованих мною (я перевірив), хоча ступінь її змінюється і часто є слабкою. Якщо випливає з S-форми, то PCA починає спотворювати кореляції швидко, коли вони відскакують від 0 (особливо при малому k), але від деякого значення на - приблизно .30 або .40 - він стабілізується. В даний час я не буду міркувати з можливих причин такої поведінки, хоча я вважаю, що "синусоїда" випливає з тригінометричної природи кореляції.

Підходить PCA проти FA: Висновки

Як загальний збірник позадіагональної частини матриці кореляції / коваріації, PCA - коли застосовується для аналізу зразкової матриці з популяції - може бути досить хорошою заміною факторного аналізу. Це відбувається тоді, коли співвідношення кількості змінних / кількість очікуваних факторів досить велике. (Геометрична причина сприятливого ефекту співвідношення пояснюється в нижній примітці нижньої примітки ). Існуючі більше чинників співвідношення може бути меншим, ніж лише декілька факторів. Наявність гострої факторної структури (у популяції існує проста структура) заважає PCA наближатися до якості FA.1

Вплив гострої факторної структури на загальну придатність PCA очевидний лише до тих пір, поки не враховуються залишки "популяції мінус відтворений зразок". Тому можна пропустити розпізнавання його поза межами симуляційного дослідження - у спостережному дослідженні вибірки ми не маємо доступу до цих важливих залишків.

На відміну від факторного аналізу, PCA є (позитивно) упередженим оцінником величини кореляцій (або коваріацій) чисельності населення, які відходять від нуля. Однак упередженість PCA зменшується в міру зростання співвідношення кількості змінних / кількість очікуваних факторів. Упередженість також зменшується у міру зростання кількості факторів у популяції, але ця остання тенденція гальмується при наявності різкої факторної структури.

Я зауважу, що зміщення PCA підходить і вплив гострої структури на нього можна виявити також при розгляді залишків "зразок мінус відтворений зразок"; Я просто опустив показ таких результатів, оскільки вони, здається, не додають нових вражень.

Моя дуже орієнтовна, широка порада, врешті-решт, могла б утриматися від використання PCA замість FA для типових (тобто 10 чи менше факторів, що очікуються в популяції) для факторних аналітичних цілей, якщо у вас є дещо 10+ разів більше змінних факторів. І чим менше факторів, тим більш серйозним є необхідне співвідношення. Я б в подальшому не рекомендується використовувати PCA замість FA взагалі коли дані з добре налагодженою, гострої факторной структурою аналізуються - наприклад, коли факторний аналіз робиться для перевірки розробляються або вже почав психологічний тест або опитувальник з шарнірними конструкціями / лусками . PCA може використовуватися як інструмент початкового, попереднього відбору предметів для психометричного інструменту.

Обмеження дослідження. 1) Я використовував лише метод ПАФ вилучення фактора. 2) Розмір вибірки був зафіксований (200). 3) Для вибірки матриць вибірки передбачалося нормальне населення. 4) Для гострої структури було змодельовано рівну кількість змінних на коефіцієнт. 5) Побудова навантажувальних факторів я запозичив їх з приблизно рівномірного (для гострої структури - тримодального, тобто 3-х частинного рівномірного) розподілу. 6) Зрозуміло, в цьому миттєвому огляді можна зрозуміти, як і де завгодно.


Виноска . PCA буде імітувати результати FA і стане рівноцінним інструментом кореляції, коли - як сказано тут - змінні помилки моделі, що називаються унікальними факторами , стають некорельованими. FA прагне зробити їх корельовані, але PCA ні, вони можуть відбутися некоррелірованнимі в PCA. Основна умова, коли це може статися, це коли кількість змінних на кількість загальних факторів (компоненти, що зберігаються як загальні фактори) велика.1

Розгляньте наступні фото (якщо спочатку вам потрібно навчитися їх розуміти, будь ласка, прочитайте цю відповідь ):

введіть тут опис зображення

За вимогою факторного аналізу, щоб мати можливість успішно відновити кореляції з кількома mзагальними факторами, унікальні фактори , що характеризують статистично унікальні частини маніфестивних змінних , повинні бути неспорідненими. Коли використовується PCA, s повинні лежати в підпросторі -простору, що охоплюється s, оскільки PCA не залишає простір аналізованих змінних. Таким чином - див. Лівий знімок - з (основний компонент - вилучений фактор) та ( , ), проаналізований, унікальні фактори ,UpXp Up-mpXm=1P1p=2X1X2U1U2примусово накладається на решту другого компонента (служить помилкою аналізу). Отже, вони повинні бути співвіднесені з . (На рис. Співвідношення рівних косинусів кутів між векторами.) Необхідна ортогональність неможлива, і спостережуване співвідношення між змінними ніколи не може бути відновлено (якщо тільки унікальними чинниками є нульові вектори, тривіальний випадок).r=1

Але якщо ви додасте ще одну змінну ( ), правий малюнок і витягніть ще один pr. Компонент як загальний фактор, три s повинні лежати в площині (визначеній двома іншими компонентами пр.). Три стріли можуть перетягувати площину таким чином, щоб кути між ними були меншими на 180 градусів. Там з'являється свобода за кутами. Як можливий конкретний випадок, кути можуть бути приблизно рівними, 120 градусів. Це вже не дуже далеко від 90 градусів, тобто від некорельованості. Така ситуація показана на рис.X3U

Як додаємо 4-ту змінну, 4 s буде охоплювати 3d-простір. З 5, 5 до проміжку 4d і т. Д. Кімната для багатьох кутів одночасно для досягнення ближче до 90 градусів збільшиться. Це означає, що можливість для PCA наблизитись до ФА у своїй здатності підходити до діагональних трикутників кореляційної матриці також розшириться.U

Але справжня ФА, як правило, здатна відновити кореляції навіть за малого співвідношення "кількість змінних / кількість факторів", оскільки, як пояснено тут (і див. Другий малюнок там), факторний аналіз дозволяє використовувати всі вектори факторів (загальний фактор (и) та унікальний ті) відхилятися від лежання в просторі змінних. Отже, є можливість для ортогональності s навіть лише з 2 змінними та одним фактором.UX

Наведені вище зображення також дають очевидну підказку, чому PCA завищує кореляції. На лівій , наприклад, , де s - проекції s на (навантаження ), а s - довжини s (навантаження ). Але таке співвідношення, як реконструйоване дорівнює лише , тобто більше, ніж .rX1X2=a1a2u1u2aXP1P1uUP2P1a1a2rX1X2


1
Я люблю ваші креслення PCA / FA / CCA, тому щасливо +1. Цей спосіб мислення - це те, до чого я цілком не звик, тому потрібна певна думка, щоб зіставити його з математикою, яку я знаю ... Однак зауважте, що тут (як і у вашому іншому відомому відповіді FA-vs-PCA з малюнки) у вас є лише дві змінні. Як я вже говорив у своїй відповіді, коли є лише дві змінні, одного фактора в FA достатньо для того, щоб повністю, 100% відтворити коваріацію (адже в матриці коваріації, крім діагоналі, є лише один ступінь свободи), але один ПК, як правило, не може цього зробити. Тож немає протиріччя з моєю відповіддю.
амеба

Хм, я сподіваюся, що я не зрозумів точку різного відтворення за допомогою FA та PCA. Твоє місце тут коротке для моєї точки зору, я б сказав про це в іншій відповіді
Готфрід Гельмс

2
Відповідаючи на ваше оновлення (це ваша відповідь на моє оновлення 2): я абсолютно згоден з усім, що ви написали тут! Навантаження PCA - це найкраще наближення низького рангу до всієї матриці коваріації (включаючи діагональ), але не обов'язково найкраще наближення низького рангу до позадіагональної його частини; останнє наближення дає факторний аналіз. Здається, ми досягли тут взаємної згоди; чи ти все ще відчуваєш, що деякі частини моєї відповіді суперечать твоїй думці?
амеба

1
@ttnphns: Я перечитав наше обговорення вище, і дозволю мені повернутися до одного моменту, який я висловив у своїй оригінальній відповіді. PCA намагається знайти навантаження, що наближаються до всієї матриці коваріації; FA намагається знайти навантаження, що наближають його до діагоналі. Але чим більша розмірність, тим менша частина матриці коваріації приймається за її діагоналі, тобто великі розміри PCA починають дбати переважно про позадіагональну її частину (тому що діагональна частина стає такою малою). Тож загалом, чим більше розмірність, тим ближче PCA до FA. Ви згодні?
амеба

1
Дякую за пінг, ttnphns. Ого, це виглядає цікаво. Я прочитаю це уважно, але не зараз; Можливо, мені доведеться відкласти це до січня. Я прокоментую тут, як тільки прочитаю. До речі, я думав (у задній частині голови) про те, щоб повернутися до цієї теми та трохи відредагувати свою відповідь, щоб зробити її більш "примирливою". Це може бути гарною можливістю зробити це (але дозвольте мені прочитати те, що ви написали спочатку). З наступаючим!
амеба

4

(Це справді коментар до другої відповіді @ ttnphns)
Що стосується різного типу відтворення коваріації при допущенні помилки ПК та ФА, я просто роздрукував навантаження / компенсації дисперсії, які виникають у двох попередніх ; тільки для прикладів я взяв 2 змінних.

Ми припускаємо побудову двох елементів як одного загального фактора та специфічних факторів. Ось ця матриця навантаження факторів:

  L_fa: 
          f1       f2      f3         
  X1:   0.894    0.447     .             
  X1:   0.894     .       0.447              

Кореляційна матриця цим є

  C:
         X1       X2 
  X1:   1.000   0.800
  X2:   0.800   1.000

Якщо ми подивимось на матрицю завантаження L_fa і інтерпретуємо її як звичайно в FA, що f2 і f3 - це помилки / специфічна помилка item, ми відтворюємо C без цієї помилки, отримуючи

 C1_Fa 
        X1       X2 
 X1:  0.800   0.800
 X2:  0.800   0.800

Таким чином ми чудово відтворили позадіагональний елемент, який є коваріацією (і діагональ зменшена)

Якщо ми подивимось на pca-рішення (це можна зробити простими обертаннями), то отримаємо два чинники з тієї ж кореляційної матриці:

 L_pca : 
         f1        f2
 X1:   0.949      -0.316
 X2:   0.949       0.316

Вважаючи другий фактор помилковим, ми отримуємо відтворену матрицю коваріацій

  C1_PC : 
        X1      X2
 X1:   0.900   0.900
 X2:   0.900   0.900

де ми переоцінили справжню кореляцію. Це тому, що ми ігнорували коригуючу негативну часткову коваріацію у другому факторі = помилка. Зауважте, що КПКС буде ідентичним першому прикладу.

З більшою кількістю предметів це вже не так очевидно, але все-таки властивий ефект. Тому існує також концепція вилучення MinRes (або -корот?), І я також бачив щось на кшталт максимально-визначального вилучення і ...


[оновлення] Що стосується питання @amoeba:

Я зрозумів концепцію "мінімальних залишків" ("MinRes") - обертання як сумісного методу з попередніми методами обчислення CFA, щоб досягти найкращого відтворення позадіагональних елементів кореляційної матриці. Я дізнався про це у 80-х / 90-х роках і не слідкував за розвитком факторного аналізу (такий же нестабільний, як раніше в останні роки), тому, можливо, "МінРес" не вийшов з моди.

Щоб порівняти його з PCA-рішенням : можна думати про пошук pc-рішення шляхом обертання факторів, коли вони розглядаються як осі в евклідовому просторі, а навантаження - це координати елементів цього простору векторів.
Тоді для пари осей говорять x, y обчислюються суми квадратів від навантажень осі x і осі y.
З цього можна знайти кут повороту, на який ми повинні обертатись, щоб отримати суми квадратів у обернутих осях, максимальні на x ° та мінімальні на вісь y ° -осі (де окружне вікно позначає обертані осі) .

Роблячи це для всіх пар осей (де завжди завжди вісь x - ліва, а вісь y - права (тому для 4 факторів у нас є лише 6 пар обертання)), а потім повторити весь процес до стабільного результату реалізує так званий "метод Якобі" для пошуку рішення основних компонентів: він знайде першу вісь таким чином, щоб вона збирала максимально можливу суму квадратів навантажень ("SSqL") (що означає також "дисперсії ") на одній осі в поточній кореляційній конфігурації.

Наскільки я зрозумів, " MinRes " повинен дивитись на часткові кореляції замість SSqL; тому він не підсумовує квадрати навантажень (як це робиться в обертанні Jacobi-pc), але підсумовує перехресні продукти навантажень у кожному факторі - за винятком "поперечних продуктів" (= квадратів) навантажень кожного предмет із самим собою.
Після обчислення критеріїв x і для осі y воно проходить так само, як описано для ітеративного обертання якобі.

Оскільки критерій обертання чисельно відрізняється від критерію максимального SSqL, результат / положення обертання має відрізнятися від рішення PCA. Якщо він збігається, він повинен надати максимально можливу часткову кореляцію на одній осі першого фактора, наступну максимальну кореляцію на наступному факторі тощо. Здається, ідея полягає в тому, щоб припустити стільки осей / факторів, що решта / залишкова часткова коваріація стає граничною.

(Зауважте, це лише те, як я інтерпретував речі, я не бачив, щоб ця процедура була чітко виписана (або наразі не можу згадати); опис у mathworld, здається, виражає її швидше за формулами, як у відповіді амеби) і є ймовірно, більш авторитетні. Щойно знайшов ще одне посилання в документації на R-проект і, ймовірно, дуже хороший посилання в книзі про фактораналіз Gorsuch, стор. 116, доступний через Google-книги )


Чи можете ви пояснити, на що ви звертаєтесь у своєму останньому реченні? Що таке "MinRes" або "максимально визначальний" видобуток, і як це пов'язано з тим, що ви писали раніше?
амеба

"MinRes" - це певний метод видобутку чи обертання, який я зустрічав роки тому в монографіях S Mulaik або К. Überla про фактораналіз. Основна увага приділяється мінімізації залишкових позадіагональних елементів. Оскільки це було чітко зазначено в контексті багатьох інших методів, я вважав, що він - можливо, трохи - відрізняється від CFA - реалізацій тієї епохи. Я намагався реалізувати його обґрунтування як критерії повороту, але якось не мав остаточного результату. Я також очікував, що тут буде відомо "Максимізація детермінанта"; Я побачу, який опис я отримав 20 років тому ...
Готфрід Хельмс

Ах, у мене є обидві частини. Опис критерію обертання для обгрунтування "minres" розміщено на go.helms-net.de/stat/fa/minres.htm . "Максимальний детермінант" - це математична модель за методом вилучення / обертання одного кореспондента Джефрі Оуена Каца, який назвав це "облісимом" і, можливо, був розроблений після нашого листування. На той час це було над моєю головою; у будь-якому разі я намагався зрозуміти метод і відформатував його та реорганізував його у текстовий файл. Див. Go.helms-net.de/stat/fa/oblisim.zip Google для "oblisim" дав запис групи новин, який, здається, її запровадив.
Готфрід Гельмс

@amoeba: Ось, можливо, перший запис, де Джефф Кац представив свій набір методів: mathforum.org/kb/message.jspa?messageID=1516627 Це 1998 рік, тому мої здогадки близько 20 років тому були трохи неточними ...
Готфрід Гельмс

2

На мій погляд, поняття "PCA" і "FA" знаходяться в іншому вимірі, ніж поняття "дослідницький", "підтверджуючий" або, можливо, "інфекційний". Таким чином, кожен із двох математичних / статистичних методів може бути застосований за одним із трьох підходів.

Наприклад, чому нерозумно бути гіпотезою, що мої дані мають загальний фактор, а також структуру набору основних компонентів (оскільки мій експеримент з моїм електронним апаратом дав мені майже вільні дані про помилки), і я перевіряю свою гіпотезу, що власні значення наступних факторів відбуваються із співвідношенням 75%? Потім це PCA у підтверджуючих рамках.

З іншого боку, здається смішним, що в нашому дослідницькому колективі ми з великою роботою створюємо акумулятор для вимірювання насильства між учнями та припускаючи 3 основні поведінки (фізична агресія, депресія, пошук допомоги з боку влади / батьків) та поставлення відповідних питань в цій батареї ... і "дослідно" розробити, скільки факторів у нас є ... Замість того, щоб виглядати, наскільки добре наша шкала містить три впізнавані фактори (крім нехтуваного елемента, специфічного і, можливо, навіть хибно корельованої помилки). І після цього, коли я підтвердив, що дійсно наш предмет-акумулятор служить наміру, ми можемо перевірити гіпотезу, що в класах молодших дітей навантаження на фактор, що вказує на "пошук у допомогу органами влади", вище ніж у старших школярів. Хм, знову підтверджуюча ...

А розвідувальний? У мене є комплекс заходів, проведених в результаті досліджень мікробіології з 1960 року, і у них було не так багато теорії, але вибірка всього, чим вони могли керувати, тому що їх сфера досліджень була дуже молодою, і я повторно досліджую домінуючу факторну структуру, припускаючи (наприклад) , що всі помилки є однаковими через оптичну точність використовуваного мікроскопа (ppca-ansatz, як я щойно дізнався). Тоді я використовую статистичну (а згодом і математичну) модель для ФА, але в цьому випадку дослідним чином.

Це хоча б те, наскільки я розумію терміни.
Можливо, я тут зовсім на неправильному шляху, але я цього не припускаю.


Пс. У 90-х я написав невелику інтерактивну програму, щоб дослідити метод PCA та фактораналіз до низу. Це було написано на Turbo-Pascal, його все ще можна запускати лише у вікні Dos ("Dos-box" під Win7), але має дуже приємне звернення: інтерактивне перемикання факторів, які потрібно включити чи не, потім повернути, обертати, окремі позиції дисперсія (за критерієм SMC або критерієм рівних дисперсій (ppca?)), увімкнення та вимкнення опції Kaiser, ввімкнення та вимкнення використання коваріацій - просто все, поки матриця завантаження факторів видно, як у таблиці. і може обертатися для основних основних методів обертання.
Це не дуже складно: немає тесту на чісквард, наприклад, призначений для самостійного вивчення внутрішньої математичної механіки. У ньому також є "демо-режим", де програма запускається сама, демонструючи пояснювальні коментарі на екрані та імітуючи клавіатурні входи, що користувач зазвичай робив би.
Той, хто зацікавлений займатися самонавчанням чи викладанням з ним, може завантажити його з моїх невеликих сторінок програмного забезпечення всередині (R) .zip Просто розгорніть файли в zip в каталозі, доступному в Dos-Box, і зателефонуйте "demoall.bat" в в третій частині "демола" я продемонстрував, як моделювати специфічні для помилок позиції обертаннями з первинно-рішення pca ...


R порт вашої програми був би цікавим. До речі, моєю першою мовою програмування (і однією з улюблених) був [Turbo] Pascal. Я навіть використовував це для написання програмного забезпечення для моєї дипломної роботи. Потім, через деякий час, я деякий час використовував Delphi разом з іншими мовами та системами. :-)
Олександр Блех

1
@ Олександр: Ну, такий імпорт, безумовно, був би приємною ідеєю; проте ... тим часом я отримую "квитки для старших" для місцевої системи руху, і, хоча ще не перевтомився, я трохи втомився від програмування ... Я думаю, що "Delphi" була природною заміною для Turbo Pascal ; Я значно поліпшив, що Inside- [r] до матричного калькулятора "MatMate", використовуючи Delphi 6, в який я включив Inside- [r] як помічник. Однак іноді я думаю, що ця справді приємна функція з точкою та клацанням у Inside- [r] також повинна бути реалізована - окрім будь-якого складного сценарію чи перекладача ...
Gottfried Helms

2

Лише одне додаткове зауваження до довгої (і справді чудової) відповіді @ amoebas щодо характеру -цінового. Ψ

У початкових висловлюваннях у вас є три : для PCA це , для PPCA є а для FA ви залишили невизначеним. ΨΨ=0Ψ=σ2IΨ

Але слід зазначити, що існує нескінченна кількість різноманітних можливих (безумовно, обмежених), але саме одна, що мінімізує ранг факторної матриці. Назвемо це Стандартною (автоматичною) оцінкою для є діагональна на основі SMC, тому запишемо це як (і навіть деяке програмне забезпечення (здається) не намагається оптимізувати з тоді як (як правило) потрібно для запобігання випадків Heywood / негативної визначеності). І більше того, навіть такі оптимізованіΨΨoptΨstdΨstd=α2Dsmcα1α<1 α2не гарантував би мінімального рангу інших коваріацій, тому зазвичай у нас це не рівне: загалом . Дійсно знайти - дуже складна гра, і наскільки я знаю (але це вже не так "далеко", як, скажімо, 20 років тому, коли я був більш причетним і ближчим до книжок), це все одно невирішена проблема. ΨstdΨopt
Ψopt


Ну, це відображає ідеальну, математичну сторону проблеми, і моє відмінність між та також може бути насправді невеликим. Більш загальний застереження, однак, полягає в тому, що він обговорює всю механізм факторизації з огляду на те, що я вивчаю лише свій зразок або маю дані про цілу сукупність ; у моделі інфекційної статистики, де я випливаю з недосконалої вибірки щодо сукупності, моя емпірична коваріація - а отже, і факторна матриця - лише оцінка, це лише тінь «справжньої» коваріації / факторної матриці. Таким чином, у такій рамці / моделі ми навіть повинні вважати, що наші "помилки" не є ідеальнимиΨstdΨoptі, таким чином, може бути неправдиво корельованим. Тож насправді в таких моделях ми / повинні залишити позаду нас якось ідеалістичне припущення про некорельовану помилку, а отже, суворо діагональну форму .Ψ


Привіт, я не впевнений, що зможу повністю виконати ваші зауваження тут Чи правильно я розумію, що під ви маєте на увазі таку діагональну матрицю з позитивними елементами, що має найменший можливий ранг (де - матриця cov / corr)? Я думаю, що для загального розміру цей найнижчий можливий ранг не набагато менший ніж (можливо, чи щось таке), тому пошук не здається дуже цікавим. Я базував свою відповідь на припущенні, що ФА намагається знайти і (розміром для даногоΨoptCΨoptCCn×nnn1ΨoptΨWn×kk) мінімізувати. CWWΨ
амеба

Різниця точок зору може базуватися на порядку кроків для вирішення проблеми для оцінки двох параметрів, які також залежать один від одного. У своєму зауваженні я починаю з того, що існує для якого решта, скажімо, , мінімальна і , хоча може бути, що у нас є деяка кількість факторів маючи на увазі . Якщо ми тоді до позиції minres, будь-яка кількість справа від факторів видаляє лише мінімальну (часткову) коваріантність. ...ΨoptrC=CΨopt||CWrWr||=0kk<rWrr+1k
Готфрід Гельмс

(...) Якщо ви почнете з замість цього, має загалом принаймні на один ранг більше, і, таким чином, кількість факторів s матиме . Тоді знаходження мінімально можливої ​​кількості знімної коваріації шляхом зменшення коефіцієнтів (навіть після обертання за деякими критеріями, такими як pc або minres), має бути неоптимальним. Відмова : це все ще гіпотеза - важко знайти для коваріацій, структура яких не є а всі псевдовипадкові експерименти із власноруч виготовленими прикладами менш надійні, ніж емпіричні випадки. ΨstdCstds>rs+1kΨopt
Готфрід Гельмс

Гаразд, я розумію, що ви говорите. Моя думка полягає в тому, що для більшості реальних ранг буде майже таким самим, як , тобто . Якщо після цього просто обертати , це, мабуть, майже еквівалентно або дуже близько до того, щоб робити PCA на і зовсім не турбуватися з FA. C = C - Ψ o p t C r n k W r CCC=CΨoptCrnkWrC
амеба

Правда. Ну, я подумав зробити це найяскравішим там, де треба знайти "ідеальний" випадок, звідки ми зводимось до практично обчислюваних наближень. <br> А тепер ще більше на користь PCA ;-): Дозволення помилкової кореляції помилок (у другому режимі застосування / інфекційної статистики) дозволяє знову наблизити результат до одного з типів, який розпочався з вилучення ПК ...
Готфрід Гельмс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.