Я використовую ієрархічну кластеризацію для аналізу даних часових рядів. Мій код реалізований з використанням Mathematica функції DirectAgglomerate[...]
, яка генерує ієрархічні кластери отримують наступні входи:
матриця відстані D
назва методу, що використовується для визначення міжкластерної зв'язку.
Я обчислив матрицю відстані D, використовуючи відстань на Манхеттені:
де і n ≈ 150 - кількість точок даних у моєму часовому ряді.
Моє запитання: чи нормально використовувати міжкластерні зв’язки Варда з матрицею відстані на Манхеттені? Деякі джерела припускають, що зв'язок Уорда слід використовувати тільки з евклідовою дистанцією.
Зауважимо, що DirectAgglomerate[...]
обчислює зв'язок Уорда, використовуючи лише матрицю відстані, а не оригінальні спостереження. На жаль, я не впевнений, як Mathematica модифікує оригінальний алгоритм Уорда, який (з мого розуміння) працював шляхом мінімізації суми помилок квадратів спостережень, обчислених відносно середнього кластера. Наприклад, для кластера що складається з вектора одновимірних спостережень, Уорд сформулював суму помилок квадратів як:
(Інші програмні засоби, такі як Matlab і R, також реалізують кластеризацію Уорда, використовуючи лише матрицю відстані, тому питання не є специфічним для Mathematica.)