k-означає проти k-медіани?


14

Я знаю, що існує алгоритм кластеризації k-означає і k-медіана. Один, який використовує середнє як центр кластера, а другий, використовує медіану. Моє запитання: коли / де використовувати який?


Вам доведеться визначити медіани (і, можливо, їх обчислити), якщо у вас є більше одного виміру; якщо ви просто берете медіану в кожному значенні, то ви втрачаєте обертальні властивості. Наступна можливість - k -медоїди
Генрі

Відповіді:


14

k-означає мінімізує дисперсію всередині кластера, що дорівнює квадрату евклідової відстані.

Загалом, це означає арифметичне значення . Він не оптимізує відстані, а квадратичні відхилення від середнього.

k-медіани мінімізують абсолютні відхилення, що дорівнює відстані Манхеттена.

Загалом, осьова медіана повинна це робити. Це хороший оцінювач середнього значення, якщо ви хочете мінімізувати суму абсолютних відхилень (тобто sum_i abs (x_i-y_i)) замість квадратних.

Це не питання про точність. Це питання правильності. ;-)

Отже, ось ваше рішення рішень:

  • Якщо ваша відстань має квадратну евклідову відстань , використовуйте k-засоби
  • Якщо ваша відстань - метричний показник такси , використовуйте k-медіани
  • Якщо у вас є якась інша відстань , використовуйте k-медоїди

Деякі винятки: наскільки я можу сказати, максимізація подібності косинусу пов'язана з мінімізацією евклідової відстані у квадраті на даних, нормалізованих L2. Отже, якщо ваші дані L2 нормалізуються; і ви l2-нормалізуєте свої засоби кожною ітерацією, тоді ви можете знову використовувати k-засоби.


Я дещо сумніваюся з твердженням, що медіана мінімізує відстань на Манхеттені, оскільки не існує єдиної узгодженої концепції медіани для багатовимірних даних. Це неправдиво, але я вважаю оманливим твердження робити в багатовимірному контексті. Існує безліч багатовимірних узагальнень медіанів, багато з яких не мають зв'язку з мінімізацією відстаней на Манхеттені.
Тім Сегейн

1
Я змінюю це на середню вісь. Я сподіваюся, що ти щасливіший зараз.
Має QUIT - Anonymous-Mousse

2

Якщо ви хочете зробити аналіз не стосовно можливого ефекту екстремальних значень, використовуйте k, але якщо ви хочете бути більш точним, використовуйте k медіану


5
Чи можете ви будь-яким чином підтримати та / або пояснити ці твердження?
jona

Так, чи можете ви детальніше розробити? з прикладами?
Джек Твен

2
Я думаю, що це тому, що "Медіана" може терпіти людей, що втрачають силу, але "Середній" на них повністю впливає. Наприклад: якщо у нас є точки даних {1,2,3,5,78}, очевидно, що 78 більше. Медіана цих даних становить 3, середня - 17,8. Отже, медіана - найкращий спосіб узагальнити ці дані.
Фадва
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.