Я знаю, що існує алгоритм кластеризації k-означає і k-медіана. Один, який використовує середнє як центр кластера, а другий, використовує медіану. Моє запитання: коли / де використовувати який?
Я знаю, що існує алгоритм кластеризації k-означає і k-медіана. Один, який використовує середнє як центр кластера, а другий, використовує медіану. Моє запитання: коли / де використовувати який?
Відповіді:
k-означає мінімізує дисперсію всередині кластера, що дорівнює квадрату евклідової відстані.
Загалом, це означає арифметичне значення . Він не оптимізує відстані, а квадратичні відхилення від середнього.
k-медіани мінімізують абсолютні відхилення, що дорівнює відстані Манхеттена.
Загалом, осьова медіана повинна це робити. Це хороший оцінювач середнього значення, якщо ви хочете мінімізувати суму абсолютних відхилень (тобто sum_i abs (x_i-y_i)) замість квадратних.
Це не питання про точність. Це питання правильності. ;-)
Отже, ось ваше рішення рішень:
Деякі винятки: наскільки я можу сказати, максимізація подібності косинусу пов'язана з мінімізацією евклідової відстані у квадраті на даних, нормалізованих L2. Отже, якщо ваші дані L2 нормалізуються; і ви l2-нормалізуєте свої засоби кожною ітерацією, тоді ви можете знову використовувати k-засоби.
Якщо ви хочете зробити аналіз не стосовно можливого ефекту екстремальних значень, використовуйте k, але якщо ви хочете бути більш точним, використовуйте k медіану