Більшість класичних алгоритмів кластеризації та зменшення розмірності (ієрархічна кластеризація, аналіз основних компонентів, k-засоби, самоорганізуючі карти ...) розроблені спеціально для числових даних, а їх вхідні дані розглядаються як точки в евклідовому просторі.
Це, звичайно, проблема, оскільки в багатьох реальних питаннях пов'язані змішані дані: наприклад, якщо ми вивчаємо автобуси, висота і довжина та розмір двигуна будуть числами, але нас також може зацікавити колір (категоріальна змінна: синій / червоний / зелений ...) та класи місткості (впорядкована змінна: мала / середня / велика ємність). Зокрема, ми можемо захотіти вивчати ці різні типи змінних одночасно.
Існує ряд методів для поширення класичних кластерних альго на змішані дані, наприклад, використання різниці Gower для підключення до ієрархічного кластеризації або багатовимірного масштабування, або інших методів, які приймають матрицю відстані як вхід. Або, наприклад, цей метод, розширення SOM на змішані дані.
Моє запитання: чому ми не можемо просто використовувати евклідову відстань на змішаних змінних? або чому це погано робити? Чому ми не можемо просто « кодувати» категоричні змінні, нормалізувати всі змінні, щоб вони мали однакову вагу на відстані між спостереженнями та не запустили звичайні альго на цих матрицях?
Це дійсно просто, і ніколи не робиться, тому я гадаю, що це дуже неправильно, але хтось може мені сказати, чому? І / чи дати мені кілька запитів? Спасибі