Процедура K-Means, яка є методом векторного квантування, який часто застосовується як метод кластеризації, взагалі не використовує явно дані про попарне відстань в / з точок даних (на відміну від ієрархічних та деяких інших кластеризацій, які дозволяють проводити довільну міру близькості). Він становить багаторазове присвоєння балів найближчому центроїду, використовуючи тим самим евклідову відстань від точок даних до центроїда . Однак K-засоби неявно засновані на попарних евклідових відстанях b / w точок даних, оскільки сума квадратичних відхилень від центроїда дорівнює сумі парних квадратних евклідових відстаней, поділених на кількість точок. Термін "центроїд" сам по собі з евклідової геометрії. Це багатофакторне середнє значення в евклідовому просторі. Простір Евкліда - це приблизно евклідові відстані. Неевклідові відстані, як правило, не охоплюють евклідовий простір. Ось чому K-Means призначений лише для евклідових відстаней.
Але евклідова відстань в / з двох точок даних може бути представлена кількома альтернативними способами . Наприклад, він тісно пов'язаний з косинусом або скалярним твором в / б точок. Якщо у вас є косинус, або коваріація, або кореляція, ви завжди можете (1) перетворити його на (квадрат) евклідової відстані, а потім (2) створити дані для цієї матриці евклідових відстаней (за допомогою головних координат або інших форм метрики Багатовимірне масштабування) до (3) вводить ці дані в кластеризацію K-засобів. Тому можна змусити K-засоби працювати з парними косинусами або такими; насправді такі реалізації кластеризації K-Means існують. Дивитися також про реалізацію "К-засобів для дистанційної матриці".
Це можна запрограмувати K-засоби таким чином , щоб він безпосередньо розрахувати на квадратну матрицю попарних евклідових відстаней, звичайно. Але це буде працювати повільно, і тому більш ефективним способом є створення даних для цієї матриці відстані (перетворення відстаней у скалярні продукти тощо) - прохід, зазначений у попередньому пункті, - а потім застосувати стандартну процедуру K-засобів до цього набору даних.
Зверніть увагу, я обговорював тему, чи сумісність евклідової чи ненуклідової різниці між точками даних сумісна з K-засобами. Це пов'язано з, але не зовсім тим самим питанням, як можливе включення ненуклеїдових відхилень від центроїда (у широкому сенсі, центрального або квазіцентроїдного) в K-засоби або модифіковані "K-засоби".
Дивіться відповідне питання K-засоби: Чому мінімізація WCSS - це максимізація відстані між кластерами? .