Вимоги до ієрархічної кластеризації
Ієрархічна кластеризація може використовуватися при довільній мірі подібності та несхожості. (Більшість інструментів очікують різниці, але дозволять отримати негативні значення. Ви самі переконаєтесь, чи будуть надані переваги малі чи великі значення.)
Тільки методи, засновані на центроїдах або дисперсії (такі як метод Уорда), є спеціальними, і їх слід застосовувати з квадратом Евкліда. (Щоб зрозуміти чому, будь ласка, уважно вивчіть ці зв’язки.)
Однозв'язний, середній зв'язок, повний зв'язок не сильно впливають, все одно це буде мінімум / середній / максимум парних відмінностей.
Кореляція як міра відстані
Якщо ви попередньо обробляєте свої дані ( спостережень, функцій) таким чином, що кожна функція має та (що відключає постійні функції!), То кореляція зводиться до косинусу:нpμ = 0σ= 1
Корр ( X, Y) = Cov ( X, Y)σХσY= E [ ( X- мкХ) ( Y- мкY) ]σХσY= E [ XY] = 1н⟨ X, Y⟩
За тих самих умов відстань у квадраті Евкліда також зменшується до косинусу:
г2Евклід( X, Y) = ∑ ( Xi- Yi)2= ∑ X2i+ ∑ Y2i- 2 ∑ XiYi= 2 п - 2 ⟨ Х, Y⟩ = 2 n [ 1 - Corr ( X, Y) ]
Тому, якщо ваші дані не вироджуються, використання кореляції для ієрархічної кластеризації повинно бути добре. Просто попередньо обробіть його, як пояснено вище, а потім використовуйте квадратну евклідову відстань.