Припустимо, що ми маємо набір елементів E і подібність ( не відстань ) функції sim (ei, ej) між двома елементами ei, ej ∈ E .
Як ми могли (ефективно) кластеризувати елементи E , використовуючи sim ?
k- значить, наприклад, вимагає заданого k , для кластеризації Canopy потрібно два порогових значення. Що робити, якщо ми не хочемо таких заздалегідь заданих параметрів?
Зауважимо, що сим не обов'язково є метрикою (тобто нерівність трикутника може бути, а може і не дотримуватися). Більше того, не має значення, чи кластери роз'єднані (розділи E ).
1-sim(ei, ej) = Distance
. За допомогою метрики відстані ви можете застосувати, наприклад, ієрархічну кластеризацію. Зійшовши з кореня, ви побачите, на якому рівні кластери зернистості мали б сенс для вашої конкретної проблеми.