У мене є набір даних X з 10 вимірами, 4 з яких - дискретні значення. Насправді ці 4 дискретні змінні є порядковими, тобто більш високе значення означає більш високу / кращу семантичну.
2 з цих дискретних змінних є категоричними в тому сенсі, що для кожної з цих змінних відстань, наприклад, від 11 до 12, не є такою ж, як відстань від 5 до 6. У той час як більш високе значення змінної передбачає більшу реальність, масштаб є не обов'язково лінійний (насправді він насправді не визначений).
Моє запитання:
- Чи корисно застосувати загальний алгоритм кластеризації (наприклад, K-Means, а потім Гауссова суміш (GMM)) до цього набору даних, який містить як дискретні, так і безперервні змінні?
Якщо ні:
- Чи слід видаляти дискретні змінні та зосереджуватися лише на безперервних?
- Чи варто краще дискретизувати безперервні та використовувати алгоритм кластеризації для дискретних даних?