Я шукаю кластеризувати невеликий набір даних (64 спостереження 4-х інтервальних змінних та одна категоріальна трифакторна змінна). Зараз я зовсім новачок у кластерному аналізі, але знаю, що з часів, коли ієрархічна кластеризація або k-засоби були єдиними доступними варіантами, був значний прогрес. Зокрема, видається, що доступні нові методи кластеризації на основі моделей, які, як вказує chl , дозволяють використовувати "показники корисності придатності для визначення кількості кластерів або класів".
Однак стандартний пакет R для кластеризації на основі моделей, mclust
очевидно, не підходить моделям зі змішаними типами даних. Можливо fpc
, я підозрюю, що модель не може підходити до моделі через не-гауссовий характер безперервних змінних. Чи варто продовжувати модельний підхід? Я хотів би продовжувати використовувати R, якщо це можливо. Як я бачу, у мене є кілька варіантів:
- Перетворіть трирівневу категоричну змінну у дві фіктивні змінні та використовуйте
mclust
. Я не впевнений, чи це призведе до зміщення результатів, але якщо ні, це мій кращий варіант. - Перетворіть безперервні змінні якось і використовуйте
fpc
пакет. - Скористайтеся іншим пакетом R, якого я ще не стикався.
- Створіть матрицю несхожості за допомогою міри Гоувера і використовуйте традиційні ієрархічні або кластерні методи кластеризації.
Чи є у вулиці stats.se вулики якісь пропозиції?