Робота аналізу основних компонентів або факторного аналізу на двійкові дані

У мене є набір даних з великою кількістю відповідей Так / Ні. Чи можна використовувати основні компоненти (PCA) або будь-який інший аналіз зменшення даних (наприклад, факторний аналіз) для цього типу даних? Підкажіть, будь ласка, як мені це робити за допомогою SPSS.

— Кеті
джерело

Що змусило вас розглянути PCA як протилежний до дискримінаційного аналізу?

— Кріс Сімокат

Дивіться також: stats.stackexchange.com/a/186026/3277

— ttnphns

Питання про дихотомічні чи бінарні змінні в PCA або факторному аналізі вічно. Існують полярні думки від "це незаконно" до "це добре", через щось на кшталт "ви можете це зробити, але ви отримаєте занадто багато факторів". Моя власна нинішня думка така. По-перше, я вважаю, що бінарна спостерігається змінна є дискретною і що неправильно трактувати її як неперервне. Чи може ця дискретна змінна породжувати фактор або основний компонент?

Факторний аналіз (ФА). Фактор за визначенням - це суцільний латент, який завантажує видимі змінні ( 1 , 2 ). Отже, остання не може бути лише безперервною (або інтервальною, більш практично кажучи), коли достатньо завантажена фактором. Крім того, FA через свою лінійну регресійну природу передбачає, що решта - не завантажена - частина, яка називається uniqness, також є безперервною, і тому виходить, що видимі змінні повинні бути безперервними навіть при незначному завантаженні. Таким чином, бінарні змінні не можуть законодавчо визначити себе в FA. Однак існують щонайменше два способи: (A) Припустимо, що дихотомія є грубою, що продовжує лежати в основі змінних, і робити FA з тетрахорними - а не Пірсоновими - кореляціями; (B) Припустимо, що коефіцієнт завантажує дихотомічну змінну не лінійно, а логістично, і замість лінійної ФА зробіть аналіз прихованої ознаки (він же Теорія реакції на предмет). Детальніше .
Аналіз основних компонентів (PCA). Хоча має багато спільного з FA, PCA - це не моделювання, а лише метод узагальнення. Компоненти не завантажують змінні в тому ж понятійному сенсі, що й фактори завантажують змінні. У PCA компоненти завантажують змінні та змінні завантажують компоненти. Ця симетрія пояснюється тим, що PCA per se є лише обертанням змінних осей у просторі. Бінарні змінні не забезпечують справжньої безперервності для компонента власними власними силами - оскільки вони не є безперервними, але псевдоперервність може забезпечуватися під кутом обертання PCA, який може з'явитися будь-яким. Таким чином , в РСЕ, і на відміну від FA, ви можете отримати , здавалося б , безперервні вимірювання (повернені осі) з чисто бінарними змінними (неповёрнутимі осями) - кутом є причиною безперервності $^1$

(0,0) $^2$

Деякі пов'язані питання щодо FA або PCA бінарних даних: 1 , 2 , 3 , 4 , 5 , 6 . Відповіді, які там потенційно, можуть висловлювати різні думки, ніж мої.

$^1$ Суб'єкти рівня - для змінних як точок, так і категорій як точок - їхні координати в просторі головних осей дійсно є масштабними значеннями. Але не для точок даних (випадків даних) бінарних даних, - їх "бали" - це псевдонеперервні значення: не внутрішня міра, а лише деякі координати накладання.

$^2$ $1$

Приклад двійкових даних (лише простий випадок двох змінних):

Розсіювачі внизу відображають точки даних, трохи розхитані (для відображення частоти), і показують основні осі компонентів у вигляді діагональних ліній, що несуть на них компоненти компонентів [ці показники, на мою заяву, є псевдоперервними значеннями]. Лівий графік на кожному малюнку демонструє PCA на основі "сировинних" відхилень від початку, тоді як правий графік демонструє PCA на основі масштабованих (діагональних = одиниць) відхилень від нього.

1) Традиційний PCA ставить (0,0)походження в середнє значення даних (центроїд). Для двійкових даних середнє значення не є можливим значенням даних. Однак це фізичний центр ваги. PCA максимізує мінливість щодо цього.

(Не забувайте також, що у бінарних змінних середнє значення та дисперсія суворо пов'язані між собою, вони є, так би мовити, "одне". Стандартизація / масштабування бінарних змінних, тобто виконання PCA на основі кореляцій, а не коваріацій, у поточний екземпляр буде означати, що ви перешкоджаєте більш збалансованим змінним - маючи більшу дисперсію - впливати на PCA більше, ніж більше перекошених змінних.)

2) Ви можете робити PCA в безцентризованих даних, тобто відпустіть походження (0,0)в місце розташування (0,0). Це PCA на MSCP ( X'X/n) матриці або на косинусовій матриці подібності. PCA максимізує protuberability із стану без атрибутів.

3) Ви можете дозволити джерелу (0,0)лежати в точці даних найменшої суми відстаней Манхеттена від нього до всіх інших точок даних - медоїда L1. Медоїд, як правило, розуміється як найбільш "репрезентативна" або "типова" точка даних. Отже, PCA дозволить максимально нетипово (крім частоти). За нашими даними, медоїд L1 впав на (1,0)вихідні координати.

4) Або покладіть початок (0,0)на координати даних, де частота найвища - багатофакторний режим. Це (1,1)клітина даних у нашому прикладі. PCA максимізує (керується) молодшими режимами.

5) В тілі відповіді було зазначено, що тетрахоричні кореляції є важливою справою для аналізу фактора для бінарних змінних. Те саме можна сказати і про PCA: ви можете робити PCA на основі тетрахорних кореляцій. Однак це означає, що ви припускаєте основної безперервної змінної у бінарній змінній.

— ttnphns
джерело

Про зв'язок між FA на бінарних елементах та моделях IRT (1- і 2-PL) ось дві статті, які можуть бути цікавими: Takane & de Leeuw, Про взаємозв'язок між теорією відгуку елементів та аналізом фактора дискретизованих змінних , Psychometrika ( 1987) 52 (3): 393; і більш пізній, Kamata & Bauer, Примітка про взаємозв'язок між аналітичними факторними моделями та моделями теорії реагування на предмет , SEM (2008) 15: 136.

— chl