Я аспірант з інформатики. Я робив аналіз дослідницьких факторів для дослідницького проекту. Мої колеги (які ведуть проект) використовують SPSS, тоді як я вважаю за краще використовувати R. Це не мало значення, поки ми не виявили значної розбіжності між двома статистичними пакетами.
Ми використовуємо фактори основного осі як метод вилучення (будь ласка, зауважте, що я добре знаю різницю між PCA та факторним аналізом, і що ми не використовуємо PCA , принаймні, навмисно). З того, що я прочитав, це повинно відповідати методу «основний осі» в R, і як «головна вісь факторинг» або «незважений найменших квадратів» в SPSS, в відповідно до R документації . Ми використовуємо метод косого обертання (конкретно, promax ), тому що ми очікуємо корельованих факторів та інтерпретуємо матрицю шаблону .
Виконуючи дві процедури в R та SPSS, існують великі відмінності. Матриця малюнка дає різні навантаження. Хоча це дає більш-менш однаковий коефіцієнт змінним співвідношенням, існує різниця в 0,15 між відповідними навантаженнями, що, здається, більше, ніж можна було б очікувати від простої реалізації способу вилучення та промакс-обертання. Однак це не найдивовижніша різниця.
Сукупна дисперсія, пояснена факторами, становить приблизно 40% у результатах SPSS та 31% у результатах R. Це величезна різниця, і це призвело до того, що мої колеги хочуть використовувати SPSS замість R. У мене немає проблем з цим, але велика різниця змушує мене думати, що ми можемо трактувати щось неправильно, що є проблемою.
Забруднюючи води ще більше, SPSS повідомляє про різні типи поясненої дисперсії, коли ми виконуємо невагомі найменші квадрати фактори. Частка поясненої дисперсії за початковими власними значеннями становить 40%, тоді як частка поясненої дисперсії від суми вилучення квадратних навантажень (SSL) становить 33%. Це змушує мене думати, що початкові власні значення не є відповідним числом, на яке слід дивитись (я підозрюю, що це дисперсія, що пояснюється перед обертанням, хоча ця велика кількість є поза мною). Ще більше заплутаним є те, що SPSS також показує SSL обертання, але не обчислює відсоток поясненої дисперсії (SPSS каже мені, що наявність співвідносних факторів означає, що я не можу додати SSL, щоб знайти загальну дисперсію, що має сенс з математикою, яку я бачив). Повідомлені SSL з R не відповідають жодному з них, і R каже мені, що він описує 31% від загальної дисперсії. SSL R мають найбільшу відповідність SSL-ротації. Власні значення R з оригінальної матриці кореляції відповідають початковим власним значенням з SPSS.
Крім того, зауважте, що я розігрувався з використанням різних методів, і що ULS та PAF SPSS, схоже, відповідають методу ПА П-Р найближчим.
Мої конкретні запитання:
- Яку різницю я повинен очікувати між R та SPSS з реалізацією факторного аналізу?
- Яку із сум квадратних навантажень від SPSS я повинен тлумачити, початкові власні значення, видобуток чи обертання?
- Чи є інші проблеми, які я, можливо, не помітив?
Мої дзвінки до SPSS та R такі:
SPSS:
FACTOR
/VARIABLES <variables>
/MISSING PAIRWISE
/ANALYSIS <variables>
/PRINT INITIAL KMO AIC EXTRACTION ROTATION
/FORMAT BLANK(.35)
/CRITERIA FACTORS(6) ITERATE(25)
/EXTRACTION ULS
/CRITERIA ITERATE(25)
/ROTATION PROMAX(4).
R:
library(psych)
fa.results <- fa(data, nfactors=6, rotate="promax",
scores=TRUE, fm="pa", oblique.scores=FALSE, max.iter=25)