У мене набір даних складається з 5 функцій: A, B, C, D, E. Всі вони є числовими значеннями. Замість того, щоб робити кластеризацію на основі щільності, я хочу зробити це кластеризувати дані у формі дерева, що нагадує рішення.
Я маю на увазі такий підхід:
Алгоритм може розділити дані на X початкові кластери на основі функції C, тобто X кластери можуть мати малі значення C, середні C, великі C і дуже великі значення C і т.д. Далі, під кожним із вузлів X кластера, алгоритм далі розділяється дані в кластери Y на основі функції А. Алгоритм продовжується до тих пір, поки не будуть використані всі функції.
Алгоритм, який я описав вище, схожий на алгоритм дерева рішень. Але він мені потрібен для непідконтрольної кластеризації, а не для контрольованої класифікації.
Мої запитання такі:
- Чи такі алгоритми вже є? Яка правильна назва такого алгоритму
- Чи існує пакет / бібліотека R / python, який має реалізацію подібних алгоритмів?
CHAID
, наприклад, дерево. Ви повинні вибрати залежну змінну. Нехай це А. Алгоритм вибирає серед B, C, D, E змінну, найбільш корельовану з A, і binns, що змінна (скажімо, вона, предиктор, D) на дві або більше категорій "оптимально" - так що кореляція (між категоризованою змінною D і змінною A максимізовано. Скажімо, вона залишила 3 групи, D1, D2, D3. Далі та сама процедура повторюється всередині кожної категорії (групи) D окремо, і найкращий предиктор серед B, C , E шукається під бінінгу. І т. Д. Що саме вас тут не влаштовує?
But I need it for unsupervised clustering, instead of supervised classification
Сама ця ключова фраза є занадто короткою і не розширює чітко те, що ви хочете. Вище ви описали те, що мені здається деревом рішень. Чи можете ви зараз дати подібний уривок про потрібне альго?