Я повинен зменшити кількість змінних для проведення кластерного аналізу. Мої змінні сильно корелюються, тому я думав зробити факторний аналіз PCA (аналіз основних компонентів). Однак якщо я використовую отримані оцінки, мої кластери не зовсім коректні (порівняно з попередніми класифікаціями в літературі).
Питання:
Чи можу я використовувати матрицю обертання для вибору змінних з найбільшими навантаженнями для кожного компонента / фактора і використовувати лише ці змінні для моєї кластеризації?
Будь-які бібліографічні посилання також будуть корисними.
Оновлення:
Деякі уточнення:
Моя мета: я повинен запустити аналіз кластерів за допомогою двокрокового алгоритму SPSS, але мої змінні не є незалежними, тому я подумав про відмову від деяких з них.
Мій набір даних: я працюю над 15 скалярними параметрами (мої змінні) з 100 000 випадків. Деякі змінні сильно корелюються ( Пірсона)
Мої сумніви: оскільки мені потрібні лише незалежні змінні, я думав запустити аналіз основних компонентів (вибачте: я помилявся про факторний аналіз у своєму первісному запитанні, моя помилка) і вибрав лише ті змінні з найбільшими завантаженнями для кожного компонента. Я знаю, що процес PCA представляє деякі довільні кроки, але я з’ясував, що цей відбір насправді схожий на " метод B4 ", запропонований IT Jolliffe (1972 & 2002) для вибору змінних і запропонований також JR King & DA Jackson у 1999 році .
Тому я думав виділити таким чином деякі підгрупи незалежних змінних. Потім я використаю групи для проведення різних кластерних аналізів і порівняю результати.