Як краще за все зробити це буде змінюватися надзвичайно в залежності від завдання , яку ви виконуєте, так що не можна сказати , що буде краще в завдання незалежним чином.
Скористайтеся двома простими речами, якщо ваш рівень є порядковим:
- Бінь їх. Наприклад, 0 = (0 250), 1 = (251 500) і т. Д. Ви можете вибрати обмеження, щоб кожен контейнер мав рівну кількість елементів.
- Ви також можете прийняти журнальне перетворення рівнів. Це зменшить діапазон вниз.
Якщо рівні не є порядковими, ви можете класифікувати рівні на основі інших функцій / змінних у вашому наборі даних та замінити ідентифікатори кластера попередніми рівнями. Існує стільки способів зробити це, скільки є алгоритми кластеризації, тому поле широко відкрите. Коли я це читаю, це те, що combine.levels()
робиться. Можна зробити так само, використовуючи kmeans()
або prcomp()
. (Ви можете / слід згодом навчити класифікатор для прогнозування кластерів для нових точок даних.)