Як НЕ використовувати K-засоби для таймсерій.
DTW не мінімізується середнім значенням; k-засоби можуть не конвергуватися, і навіть якщо вони сходяться, це не дасть дуже хорошого результату. Середнє значення - оцінювач найменших квадратів на координатах. Він мінімізує дисперсію, а не довільні відстані, а k-засоби призначені для мінімізації дисперсії, а не довільних відстаней .
Припустимо, у вас є два часові ряди. Дві синусоїди однакової частоти і досить тривалий період вибірки; але вони компенсуються . Оскільки DTW робить викривлення в часі, він може вирівняти їх так, щоб вони ідеально відповідали, за винятком початку та кінця. DTW призначить досить невелику відстань для цих двох серій. Однак, якщо обчислити середнє значення двох серій, це буде рівне значення 0 - вони скасовуються. Середнє значення не робить динамічного викривлення в часі і втрачає все значення, отримане DTW. За такими даними k-засоби можуть не збігатися , і результати будуть безглуздими. К-засоби дійсно повинні використовуватися лише з дисперсією (= квадрат евклідової), або з деякими випадками, які є еквівалентними (як косинус, за нормалізованими даними L2, де схожість косинусу єπте саме, що евклідова відстань у квадраті)2 -
Замість цього обчисліть матрицю відстані за допомогою DTW, а потім запустіть ієрархічну кластеризацію, наприклад, одне посилання. На відміну від k-засобів, серії можуть навіть мати різну довжину.