Різниця між PCA та спектральною кластеризацією для невеликого вибіркового набору булевих ознак


10

У мене є набір даних з 50 зразків. Кожен зразок складається з 11 (можливо співвідносних) булевих ознак. Мені хотілося б дещо, як візуалізувати ці зразки на двовимірному графіку та перевірити, чи є серед 50-ти зразків кластери / групування.

Я спробував наступні два підходи:

(a) Запустіть PCA на матриці 50x11 та виберіть перші два основні компоненти. Проектуйте дані на 2D графік і запустіть прості K-засоби для ідентифікації кластерів.

(b) Побудуйте матрицю подібності 50x50 (косинус). Запустіть спектральну кластеризацію для зменшення розмірності з наступним K-засобом знову.

Яка концептуальна різниця між прямим PCA та використанням власних значень матриці подібності? Чи один кращий за інший?

Також, чи є кращі способи візуалізації таких даних у 2D? Оскільки розмір моєї вибірки завжди обмежений 50, а мій набір функцій завжди знаходиться в діапазоні 10-15, я готовий спробувати кілька підходів під час руху та вибрати найкращий.

Супутнє питання: Групування зразків кластеризацією або PCA

Відповіді:


9

Яка концептуальна різниця між прямим PCA та використанням власних значень матриці подібності?

PCA проводиться на коваріаційній або кореляційній матриці, але спектральне кластеризація може взяти будь-яку матрицю подібності (наприклад, побудовану з косинусною схожістю) і знайти там кластери.

По-друге, алгоритми спектрального кластеризації ґрунтуються на розподілі графів (зазвичай йдеться про пошук найкращих обрізів графіка), тоді як PCA знаходить напрямки, які мають більшу частину дисперсії. Хоча в обох випадках ми знаходимо власні вектори, концептуальні підходи різні.

І нарешті, я бачу, що PCA та спектральне кластерування служать різним цілям: один - це техніка зменшення розмірності, а інший - це більше підхід до кластеризації (але це робиться за допомогою зменшення розмірності)


5

Для булевих (тобто категоричних з двома класами) особливостей, хороша альтернатива використанню PCA полягає у використанні аналізу множинної кореспонденції (MCA), що є просто розширенням PCA до категоричних змінних (див. Пов'язану тему ). Деякі відомості про MCA, статті Husson et al. (2010) , або Абді та Валентин (2007) . Відмінним пакетом R для виконання MCA є FactoMineR . Він надає вам інструменти для побудови двовимірних карт навантажень спостережень на основні компоненти, що є дуже проникливим.

Нижче наводяться два приклади карти з одного з моїх минулих дослідницьких проектів (побудовано за допомогою ggplot2). У мене було лише близько 60 спостережень, і це дало хороші результати. Перша карта представляє спостереження в просторі PC1-PC2, друга карта в просторі PC3-PC4 ... Змінні також представлені на карті, що допомагає інтерпретувати значення розмірів. Зібравшись із кількох із цих карт, ви можете отримати гарне уявлення про те, що відбувається у ваших даних.

введіть тут опис зображення

На веб-сайті, пов’язаному вище, ви також знайдете інформацію про нову процедуру, HCPC, яка розшифровується як Ієрархічне кластеризація основних компонентів, і яка може зацікавити вас. В основному цей метод працює наступним чином:

  • виконати MCA,
  • зберегти перше к розміри (де к<p, с pваша початкова кількість функцій). Цей крок корисний тим, що він видаляє деякий шум, а отже, дозволяє стабільніше кластеризувати,
  • виконати агломераційну (знизу вгору) ієрархічну кластеризацію у просторі збережених ПК. Оскільки ви використовуєте координати проекцій спостережень у просторі ПК (реальні числа), ви можете використовувати евклідову відстань з критерієм Ворда для зв'язку (мінімальне збільшення дисперсії в кластері). Ви можете вирізати дендограму на потрібній вам висоті або дозволити функцію R скоротити, якщо ви базуєтесь на евристиці,
  • (необов'язково) стабілізують кластери, виконуючи кластеризацію K-засобів. Початкова конфігурація задається центрами кластерів, знайденими на попередньому кроці.

Тоді у вас є маса способів дослідження кластерів (найбільш репрезентативні функції, більшість представницьких осіб тощо)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.