Традиційний (лінійний) PCA та факторний аналіз вимагають даних на рівні масштабу (інтервал або відношення). Дані рейтингових даних типу лікерта приймаються на рівні масштабів, оскільки такі дані простіше аналізувати. І рішення іноді є обґрунтованим статистично, особливо коли кількість замовлених категорій перевищує 5 або 6. (Хоча, чисто логічно, питання про тип даних та кількість рівнів масштабу є різними.)
Що робити, якщо ви віддаєте перевагу трактувати багатотомну шкалу лікерта як порядкову? Або у вас є дихотомічні дані? Чи можливо зробити дослідницький факторний аналіз або PCA для них?
В даний час існує три основні підходи до виконання FA (включаючи PCA як його особливий випадок) на категоричних порядкових або бінарних змінних (читайте також цей рахунок про випадок бінарних даних, і це врахування того, що можна зробити з порядковим масштабом).
Оптимальний підхід до масштабування (сімейство додатків ). Також називається категоричним PCA (CatPCA) або нелінійним FA. У CatPCA порядкові змінні монотонно перетворюються («визначаються кількісно») у їх «основні» варіанти інтервалів з метою досягнення максимальної дисперсії, поясненої вибраною кількістю основних компонентів, витягнутих із даних інтервальних даних. Це робить метод відкрито орієнтованим на ціль (а не на основі теорії) і важливо заздалегідь визначитися з кількістю основних компонентів. Якщо потрібна справжня FA замість PCA, звичайно лінійна FA може, природно, виконуватися на тих перетворених змінних, що виводяться з CatPCA. З бінарними змінними CatPCA (на жаль?) Поводиться так, як звичайна PCA, тобто так, ніби вони є суцільними змінними. CatPCA приймає також номінальні змінні та будь-яку суміш типів змінних (приємно).
Базова змінний підхід. Також відомий як PCA / FA, виконаний на тетрахорних (для бінарних даних) або поліхорних (для порядкових даних) кореляцій. Для кожної змінної маніфесту передбачається нормальний розподіл для основної (потім двійкової) безперервної змінної. Потім застосовується класичний ФА для аналізу вищезазначених кореляцій. Підхід легко забезпечує суміш інтервальних, порядкових, двійкових даних. Одним із недоліків підходу є те, що - при виведенні кореляційних зв'язків - він не має підказки щодо багатоваріантного розподілу базових змінних, - може "уявити" щонайбільше біваріантних розподілів, таким чином базуючись не на повній інформації.
Підхід до теорії відгуків предметів (IRT). Іноді також називають логістичним ФА або прихованим аналізом ознак . Застосовується модель, дуже близька до двійкової logit (для двійкових даних) або пропорційної моделі журналу коефіцієнтів (для порядкових даних). Алгоритм не пов'язаний з розкладанням кореляційної матриці, тому він трохи відсторонений від традиційного ФА, все-таки це добросовісна категорична ФА. "Параметри дискримінації" тісно відповідають навантаженням ФА, але "труднощі" замінюють поняття "унікальності" ФА. Впевненість у відповідності до ІРТ швидко зменшується у міру зростання кількості факторів, що є проблематичною стороною такого підходу. IRT можна по-своєму включати змішаний інтервал + двійкові + порядкові та, можливо, номінальні змінні.
Факторні бали у підходах (2) та (3) важче оцінити, ніж коефіцієнти фактора у класичному ФА чи підході (1). Однак існує кілька методів (очікувані або максимальні апостеріорі-методи, метод максимальної ймовірності тощо).
Припущення щодо моделей факторного аналізу в трьох підходах в основному такі ж, як і у традиційних ФА. Підхід (1) доступний в R, SPSS, SAS (на мій погляд). Підходи (2) та (3) реалізуються здебільшого в спеціалізованих пакетах з прихованою змінною - Mplus, LISREL, EQS.
Поліноміальний підхід. Це ще не розроблено повністю. Основні компоненти можна моделювати у вигляді поліноміальних комбінацій змінних ( використання поліномів є популярним способом моделювання нелінійних ефектів порядкових регресорів.). Також спостережувані категорії в свою чергу можна моделювати як дискретні прояви поліноміальних комбінацій прихованих факторів.
Існує процвітаюче поле нелінійних методик зменшення розмірності; деякі з них можуть бути застосовані або прийняті для роботи з категоричними даними (особливо бінарними або після бінаризації у великомірний набір даних).
r
Подивіться також у це , це , це , це , це , це , це , це .