Надійний кластерний метод для змішаних даних в R


12

Я шукаю кластеризувати невеликий набір даних (64 спостереження 4-х інтервальних змінних та одна категоріальна трифакторна змінна). Зараз я зовсім новачок у кластерному аналізі, але знаю, що з часів, коли ієрархічна кластеризація або k-засоби були єдиними доступними варіантами, був значний прогрес. Зокрема, видається, що доступні нові методи кластеризації на основі моделей, які, як вказує chl , дозволяють використовувати "показники корисності придатності для визначення кількості кластерів або класів".

Однак стандартний пакет R для кластеризації на основі моделей, mclustочевидно, не підходить моделям зі змішаними типами даних. Можливо fpc, я підозрюю, що модель не може підходити до моделі через не-гауссовий характер безперервних змінних. Чи варто продовжувати модельний підхід? Я хотів би продовжувати використовувати R, якщо це можливо. Як я бачу, у мене є кілька варіантів:

  1. Перетворіть трирівневу категоричну змінну у дві фіктивні змінні та використовуйте mclust. Я не впевнений, чи це призведе до зміщення результатів, але якщо ні, це мій кращий варіант.
  2. Перетворіть безперервні змінні якось і використовуйте fpcпакет.
  3. Скористайтеся іншим пакетом R, якого я ще не стикався.
  4. Створіть матрицю несхожості за допомогою міри Гоувера і використовуйте традиційні ієрархічні або кластерні методи кластеризації.

Чи є у вулиці stats.se вулики якісь пропозиції?


Для перетворення ваших категоричних даних у фіксовану манекен (один із гарячим кодуванням) ви можете використовувати функцію dummy.data.frame. в якості введення ви можете надати змішані дані, і як вихід вони просто кодують категоричні.
Нагмех

Відповіді:


7

Я рекомендую вам використовувати Gower з наступною ієрархічною кластеризацією. Ієрархічна кластеризація залишається найбільш гнучким і відповідним методом у випадку невеликої кількості об'єктів (наприклад, 64). Якщо ваша категорична змінна номінальна, Gower внутрішньо перекодує її у фіктивні змінні та базує схожість на кістки (як частина Gower) на них. Якщо ваша змінна є порядковою, вам слід знати, що остання версія коефіцієнта Gower також може вмістити її.

Що стосується численних індексів для визначення "найкращої" кількості кластерів, то більшість з них існує незалежно від того чи іншого алгоритму кластеризації. Вам не потрібно шукати кластеризації пакетів, які обов'язково містять такі індекси, оскільки останні можуть існувати як окремі пакети. Ви залишаєте діапазон кластерних рішень після кластерного пакету, а потім порівнюєте їх за індексом з іншого пакету.


Я в кінцевому підсумку йшов цим маршрутом, дякую за підказку.
fmark
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.