Чи є факторний аналіз або PCA для порядкових або двійкових даних?


28

Я завершив аналіз основних компонентів (PCA), дослідницький факторний аналіз (EFA) та підтверджуючий факторний аналіз (CFA), обробляючи дані за шкалою Likert (5-рівневі відповіді: немає, мало, деякі, ..) як безперервний змінна. Потім, використовуючи Lavaan, я повторив CFA, визначаючи змінні як категоричні.

Мені хотілося б знати, які типи аналізів підходили б і були б еквівалентними PCA та EFA, коли дані мають порядковий характер. І коли двійкові .

Я також вдячний для пропозицій щодо конкретних пакетів або програмного забезпечення, які можна легко застосувати для таких аналізів.

Відповіді:


38

Традиційний (лінійний) PCA та факторний аналіз вимагають даних на рівні масштабу (інтервал або відношення). Дані рейтингових даних типу лікерта приймаються на рівні масштабів, оскільки такі дані простіше аналізувати. І рішення іноді є обґрунтованим статистично, особливо коли кількість замовлених категорій перевищує 5 або 6. (Хоча, чисто логічно, питання про тип даних та кількість рівнів масштабу є різними.)

Що робити, якщо ви віддаєте перевагу трактувати багатотомну шкалу лікерта як порядкову? Або у вас є дихотомічні дані? Чи можливо зробити дослідницький факторний аналіз або PCA для них?

В даний час існує три основні підходи до виконання FA (включаючи PCA як його особливий випадок) на категоричних порядкових або бінарних змінних (читайте також цей рахунок про випадок бінарних даних, і це врахування того, що можна зробити з порядковим масштабом).

  1. Оптимальний підхід до масштабування (сімейство додатків ). Також називається категоричним PCA (CatPCA) або нелінійним FA. У CatPCA порядкові змінні монотонно перетворюються («визначаються кількісно») у їх «основні» варіанти інтервалів з метою досягнення максимальної дисперсії, поясненої вибраною кількістю основних компонентів, витягнутих із даних інтервальних даних. Це робить метод відкрито орієнтованим на ціль (а не на основі теорії) і важливо заздалегідь визначитися з кількістю основних компонентів. Якщо потрібна справжня FA замість PCA, звичайно лінійна FA може, природно, виконуватися на тих перетворених змінних, що виводяться з CatPCA. З бінарними змінними CatPCA (на жаль?) Поводиться так, як звичайна PCA, тобто так, ніби вони є суцільними змінними. CatPCA приймає також номінальні змінні та будь-яку суміш типів змінних (приємно).

  2. Базова змінний підхід. Також відомий як PCA / FA, виконаний на тетрахорних (для бінарних даних) або поліхорних (для порядкових даних) кореляцій. Для кожної змінної маніфесту передбачається нормальний розподіл для основної (потім двійкової) безперервної змінної. Потім застосовується класичний ФА для аналізу вищезазначених кореляцій. Підхід легко забезпечує суміш інтервальних, порядкових, двійкових даних. Одним із недоліків підходу є те, що - при виведенні кореляційних зв'язків - він не має підказки щодо багатоваріантного розподілу базових змінних, - може "уявити" щонайбільше біваріантних розподілів, таким чином базуючись не на повній інформації.

  3. Підхід до теорії відгуків предметів (IRT). Іноді також називають логістичним ФА або прихованим аналізом ознак . Застосовується модель, дуже близька до двійкової logit (для двійкових даних) або пропорційної моделі журналу коефіцієнтів (для порядкових даних). Алгоритм не пов'язаний з розкладанням кореляційної матриці, тому він трохи відсторонений від традиційного ФА, все-таки це добросовісна категорична ФА. "Параметри дискримінації" тісно відповідають навантаженням ФА, але "труднощі" замінюють поняття "унікальності" ФА. Впевненість у відповідності до ІРТ швидко зменшується у міру зростання кількості факторів, що є проблематичною стороною такого підходу. IRT можна по-своєму включати змішаний інтервал + двійкові + порядкові та, можливо, номінальні змінні.

Факторні бали у підходах (2) та (3) важче оцінити, ніж коефіцієнти фактора у класичному ФА чи підході (1). Однак існує кілька методів (очікувані або максимальні апостеріорі-методи, метод максимальної ймовірності тощо).

Припущення щодо моделей факторного аналізу в трьох підходах в основному такі ж, як і у традиційних ФА. Підхід (1) доступний в R, SPSS, SAS (на мій погляд). Підходи (2) та (3) реалізуються здебільшого в спеціалізованих пакетах з прихованою змінною - Mplus, LISREL, EQS.

  1. Поліноміальний підхід. Це ще не розроблено повністю. Основні компоненти можна моделювати у вигляді поліноміальних комбінацій змінних ( використання поліномів є популярним способом моделювання нелінійних ефектів порядкових регресорів.). Також спостережувані категорії в свою чергу можна моделювати як дискретні прояви поліноміальних комбінацій прихованих факторів.

  2. Існує процвітаюче поле нелінійних методик зменшення розмірності; деякі з них можуть бути застосовані або прийняті для роботи з категоричними даними (особливо бінарними або після бінаризації у великомірний набір даних).

  3. r

Подивіться також у це , це , це , це , це , це , це , це .


3
Феноменальна відповідь. Єдине, що потрібно додати, це те, що я думаю, що ви можете використовувати пакет психіки в R для реалізації підходів у (2) (див. Опцію "cor" для функції fa) та (3) (див. Функції irt.fa та irt.poly ) в різному ступені, і пакет ltm також може бути використаний для розміщення декількох моделей IRT.
jsakaluk

1
Вони можуть так відрізнятися. Я кілька разів створював / перевіряв інвентаризацію за допомогою "нелінійної ФА" (CatPCA-тоді-EFA) і знайшов результати кращі, ніж у звичайних (лінійних) EFA. Процедура, яку я прийняв, була подібна як до звичайної ФА, різниця полягає лише в тому, що для кожного аналізу - кожного набору предметів, які я намагаюсь, і кожного числа факторів, які я витягую - я робив CatPCA-тоді (за кількісно визначеними змінними) -EFA pas de deux .
ttnphns

@jsakaluk, ніж вам дуже багато за інформацію. (Я не користувач R, тому лише погано знаю його феноменальну здатність).
ttnphns

Дякую за такі ретельні відповіді. @ttnphns Я витратив більшу частину сьогодні, намагаючись реалізувати CATPCA в SPSS 23. Мені вдалося знайти два навчальні посібники (Linting & Kooij (2012) & unt.edu/rss/class/Jon/SPSS_SC/Module9/M9_CATPCA/… ). не вдалося відповісти на кілька моїх власних питань. Чи можете ви запропонувати хороший відділ для вирішення деяких технічних питань? Ще раз дякую вам.
користувач116948

1
@ user116948, Якщо у вас виникли проблеми з розумінням роботи з ним в SPSS: Перш за все, знайдіть і прочитайте тематичне дослідження CATPCA у підменю «SPSS Case Studies» у меню довідки. По-друге, перегляньте всі питання щодо CATPCA, які вже задавались на цьому сайті. Третє: якщо у вас все ще виникають питання - задайте це як нове запитання на сайті. Не хвилюйтесь: якщо це "занадто технічно", його можна перенести в StackOveflow. По-четверте: виберіть спільноту SPSS, щоб поставити там своє запитання (SPSSXL найкраще). Привіт вам.
ttnphns
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.