У моєму наборі даних є як безперервні, так і природно дискретні змінні. Я хочу знати, чи можемо ми робити ієрархічну кластеризацію, використовуючи обидва типи змінних. І якщо так, то яка міра відстані підходить?
У моєму наборі даних є як безперервні, так і природно дискретні змінні. Я хочу знати, чи можемо ми робити ієрархічну кластеризацію, використовуючи обидва типи змінних. І якщо так, то яка міра відстані підходить?
Відповіді:
Один із способів - використовувати коефіцієнт подібності Гоувера, який є складовою мірою 1 ; вона потребує кількісних (таких як рейтингова шкала), двійкових (таких як присутні / відсутні) та номінальних (таких як працівник / викладач / діловод) змінних. Пізніше Podani 2 додав можливість приймати порядкові змінні.
Коефіцієнт легко зрозуміти навіть без формули; ви обчислюєте значення подібності між індивідами за кожною змінною, беручи до уваги тип змінної, а потім середнє значення для всіх змінних. Зазвичай програма обчислення Gower дозволить вам зважувати змінні, тобто їх внесок, до складеної формули. Однак правильне зважування змінних різного типу є проблемою , не існує чітких чітких вказівок, завдяки чому Говер або інші "складені" показники близькості тягнуть за собою.
Грані подібності Гоувера ( ):
(Перелік типів легко розширити. Наприклад, можна додати підсумок для підрахунку змінних, використовуючи нормалізовану відстань chi-квадрата, перетворену на подібність.)
Коефіцієнт коливається між 0 і 1.
З евклідовими відстанями (відстані, що підтримують евклідовий простір), практично будь-яка класична техніка кластеризації буде виконана. Включаючи K-засоби (якщо, звичайно, ваша програма K-засоби може обробляти дистанційні матриці) і включаючи методи Уорда, центроїди, медіанні методів ієрархічної кластеризації . Використання K-засобів або інших цих методів, заснованих на евклідовій відстані з неевклідовою метричною відстані , можливо, євристично допустимим. При неметричних відстанях такі методи не можна використовувати.
У попередньому параграфі йдеться про те, чи K-означає, або Уорд, або таке кластеризація є законним чи ні з дистанцією Гоувера математично (геометрично). З точки зору шкали вимірювання ("психометричної") не слід обчислювати середнє або евклідовий відхилення від нього в будь-яких категоричних (номінальних, двійкових, а також порядкових) даних; тому з цієї позиції ви просто не можете обробляти коефіцієнт Гоуера за допомогою K-засобів, Уорда тощо. Ця точка зору попереджає, що навіть якщо є простір Евкліда, він може бути гранульованим, а не гладким ( див. пов'язане ).
Якщо ви натрапили на це питання і цікавитесь, який пакунок завантажити для використання метрики Gower в R , cluster
пакет має функцію з назвою daisy () , яка за замовчуванням використовує метрику Gower кожного разу, коли використовуються змішані типи змінних. Або ви можете встановити його вручну, щоб використовувати метрику Гоувера.
daisy(x, metric = c("euclidean", "manhattan", "gower"),
stand = FALSE, type = list(), weights = rep.int(1, p))
StatMatch
.