Для булевих (тобто категоричних з двома класами) особливостей, хороша альтернатива використанню PCA полягає у використанні аналізу множинної кореспонденції (MCA), що є просто розширенням PCA до категоричних змінних (див. Пов'язану тему ). Деякі відомості про MCA, статті Husson et al. (2010) , або Абді та Валентин (2007) . Відмінним пакетом R для виконання MCA є FactoMineR . Він надає вам інструменти для побудови двовимірних карт навантажень спостережень на основні компоненти, що є дуже проникливим.
Нижче наводяться два приклади карти з одного з моїх минулих дослідницьких проектів (побудовано за допомогою ggplot2). У мене було лише близько 60 спостережень, і це дало хороші результати. Перша карта представляє спостереження в просторі PC1-PC2, друга карта в просторі PC3-PC4 ... Змінні також представлені на карті, що допомагає інтерпретувати значення розмірів. Зібравшись із кількох із цих карт, ви можете отримати гарне уявлення про те, що відбувається у ваших даних.
На веб-сайті, пов’язаному вище, ви також знайдете інформацію про нову процедуру, HCPC, яка розшифровується як Ієрархічне кластеризація основних компонентів, і яка може зацікавити вас. В основному цей метод працює наступним чином:
- виконати MCA,
- зберегти перше к розміри (де к < р, с pваша початкова кількість функцій). Цей крок корисний тим, що він видаляє деякий шум, а отже, дозволяє стабільніше кластеризувати,
- виконати агломераційну (знизу вгору) ієрархічну кластеризацію у просторі збережених ПК. Оскільки ви використовуєте координати проекцій спостережень у просторі ПК (реальні числа), ви можете використовувати евклідову відстань з критерієм Ворда для зв'язку (мінімальне збільшення дисперсії в кластері). Ви можете вирізати дендограму на потрібній вам висоті або дозволити функцію R скоротити, якщо ви базуєтесь на евристиці,
- (необов'язково) стабілізують кластери, виконуючи кластеризацію K-засобів. Початкова конфігурація задається центрами кластерів, знайденими на попередньому кроці.
Тоді у вас є маса способів дослідження кластерів (найбільш репрезентативні функції, більшість представницьких осіб тощо)