Чи можна використовувати PCA, щоб зробити змінний вибір для кластерного аналізу?


12

Я повинен зменшити кількість змінних для проведення кластерного аналізу. Мої змінні сильно корелюються, тому я думав зробити факторний аналіз PCA (аналіз основних компонентів). Однак якщо я використовую отримані оцінки, мої кластери не зовсім коректні (порівняно з попередніми класифікаціями в літературі).

Питання:

Чи можу я використовувати матрицю обертання для вибору змінних з найбільшими навантаженнями для кожного компонента / фактора і використовувати лише ці змінні для моєї кластеризації?

Будь-які бібліографічні посилання також будуть корисними.

Оновлення:

Деякі уточнення:

  • Моя мета: я повинен запустити аналіз кластерів за допомогою двокрокового алгоритму SPSS, але мої змінні не є незалежними, тому я подумав про відмову від деяких з них.

  • Мій набір даних: я працюю над 15 скалярними параметрами (мої змінні) з 100 000 випадків. Деякі змінні сильно корелюються ( Пірсона)>0.9

  • Мої сумніви: оскільки мені потрібні лише незалежні змінні, я думав запустити аналіз основних компонентів (вибачте: я помилявся про факторний аналіз у своєму первісному запитанні, моя помилка) і вибрав лише ті змінні з найбільшими завантаженнями для кожного компонента. Я знаю, що процес PCA представляє деякі довільні кроки, але я з’ясував, що цей відбір насправді схожий на " метод B4 ", запропонований IT Jolliffe (1972 & 2002) для вибору змінних і запропонований також JR King & DA Jackson у 1999 році .

    Тому я думав виділити таким чином деякі підгрупи незалежних змінних. Потім я використаю групи для проведення різних кластерних аналізів і порівняю результати.


1
Якщо ви знаєте правильну відповідь, навіщо взагалі робити аналіз?
StasK

1
З іншого приводу, чому, на вашу думку, вам потрібно зменшити кількість змінних для кластерного аналізу? Я не думаю, що жоден із сучасних інструментів кластерного аналізу не має обмежень щодо кількості вхідних змінних. Звичайно, якщо у вас є тест із 120 предметами, справи з ним ускладняться.
Стаск


Мені здається, що додавання аспекту кластерного аналізу цього Q робить його досить чітким, щоб залишатися відкритим.
gung - Відновіть Моніку

Ви ніби застосовуєте до дублікатів більш жорсткі критерії, ніж я, @gung; можливо, ви маєте рацію (і голосування також не проходить на цьому). Однак у цьому конкретному випадку ОП запитувала про найпростіший вибір функцій на основі PCA (як було уточнено в його оновленнях), який висвітлено у запропонованій нами темі. З іншого боку, StasK розмістив тут цікаву відповідь, яка спеціально стосується кластеризації ...
амеба каже, що відновила Моніку

Відповіді:


7

Я, як це є моїм звичаєм, зробити крок назад і запитати, що саме ви намагаєтесь зробити. Факторний аналіз призначений для пошуку прихованих змінних. Якщо ви хочете знайти приховані змінні та кластеризувати їх, то те, що ви робите, - це правильно. Але ви кажете, що просто хочете зменшити кількість змінних - це натомість пропонує аналіз основних компонентів.

Однак з будь-яким із них вам доведеться інтерпретувати кластерний аналіз на нових змінних, і ці нові змінні є просто зваженими сумами старих.

Скільки змінних у вас є? Наскільки вони співвідносні? Якщо їх занадто багато, і вони дуже сильно корелюються, то ви можете шукати всі кореляції за деяким дуже високим числом і випадковим чином видаляти одну змінну з кожної пари. Це зменшує кількість змінних і залишає змінні такими, якими вони є.

Дозвольте мені також відзвучити @StasK про необхідність цього взагалі зробити, а @ rolando2 про корисність пошуку чогось іншого, ніж того, що було знайдено раніше. Як казав мій улюблений професор середньої школи, "якщо ти не здивований, ти нічого не навчився".


1
Перш за все, мені шкода: я фактично маю на увазі аналіз основних компонентів, а не факторний аналіз, мою помилку. Більше того, я шукав спосіб не обрати довільно відьому кореляційну змінну, яку я буду тримати. Додаю більше інформації про проблему вище .. ще раз дякую
en.

5

Спосіб одночасно виконувати факторний аналіз та кластерний аналіз - за допомогою структурних моделей сумішей рівнянь. У цих моделях ви постулюєте, що для кожного кластера існують окремі моделі (в даному випадку факторні моделі). Вам потрібно буде провести середній аналіз разом з коваріаційним аналізом і мати справу з ідентифікацією більшою мірою, ніж у простому аналізі фактора ванілі. Ідея, яка підійшла з боку SEM, з'являється у Jedidi et. ін. (1997) , і з боку кластеризації, в кластеризації на основі моделі Адріана Рафтери . Цей вид аналізу, мабуть, доступний у Mplus .


1
дякую за вхідні дані, спеціально за посилання, але я помилково посилався на факторний аналіз: я насправді думав про основні компоненти, щоб зменшити мої змінні, встановлені до підгрупи незалежних змінних. моя помилка
en.

2

Я не думаю, що це питання "коректності" чистого і простого, а скоріше, чи буде воно виконати те, що ви прагнете робити. Описаний вами підхід призведе до кластеризації за певними факторами, зменшеною водою, оскільки ви будете використовувати лише один показник для представлення кожного фактора. Кожен з таких показників є недосконалим показником основного, прихованого фактора. Це одне питання.

Інше питання полягає в тому, що сам факторний аналіз, як я переказав (і багато інших людей) , переповнений суб'єктивними рішеннями, що стосуються того, як поводитися з відсутніми даними, кількістю факторів для вилучення, як витягнути, чи потрібно і як обертати тощо. на. Тож може бути далеко не ясно, що фактори, які ви могли витягти швидким, програмним способом за замовчуванням (як я думаю, ви мали на увазі), є "найкращими" в будь-якому сенсі.

В цілому, можливо, ви використовували зменшені версії факторів, які самі по собі є дискусійними як найкращі способи охарактеризувати теми, що лежать в основі ваших даних. Я б не очікував, що кластери, що виникають внаслідок таких вхідних змінних, будуть найбільш інформативними або найбільш виразними.

З іншого боку, здається цікавим, що ви вважаєте проблемою наявність членів / профілів кластерів, які не узгоджуються з тим, що виявили інші дослідники. Іноді підтверджуючі результати можуть бути дуже здоровими!


велике дякую, я додав більше інформації вище, щоб уточнити свої сумніви
en.

0

У вашому випадку може статися те, що фактори, отримані в Факторному аналізі, компенсують позитивні та негативні навантаження від вихідних змінних. Це призведе до зменшення диференційованості, що є метою кластеризації.

Чи можете ви розділити кожен витягнутий коефіцієнт на 2 - один має тільки позитивні навантаження, а другий лише негативні навантаження?

Замініть коефіцієнти коефіцієнтів для кожного випадку для кожного фактору на позитивні та негативні оцінки та спробуйте кластеризувати цей новий набір балів.

Будь ласка, залиште рядок, якщо це працює для вас.


0

Ви можете сканувати як високі значення, так і низькі значення та залишити всі змінні у факторах. Таким чином, немає необхідності зменшувати фактори. Якщо розділити Фактор 1 (скажімо) певним чином, виходячи з ознак навантажень, у Факторі 2 ознаки можуть бути зовсім іншими. Ви б потім вирізали Фактор 2 інакше, ніж Фактор 1? Це здається заплутаним.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.