Чим пошук центроїда відрізняється від знаходження середнього?


26

Виконуючи ієрархічну кластеризацію, можна використовувати багато метрик для вимірювання відстані між кластерами. Дві такі метрики передбачають обчислення центроїдів і засобів точок даних у кластерах.

Яка різниця між середнім та центроїдним? Хіба це не однакова точка кластеру?

Відповіді:


38

Наскільки я знаю, "середнє" кластера і центроїд одного кластера - це одне і те ж, хоча термін "центроїд" може бути дещо точнішим, ніж "середній", коли йдеться про багатовимірні дані.

Щоб знайти центроїд, слід обчислити (арифметичне) середнє положення точок окремо для кожного виміру. Наприклад, якщо у вас були очки:

  • (-1, 10, 3),
  • (0, 5, 2) і
  • (1, 20, 10),

тоді центроїд був би розташований у ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), що спрощує (0, 11 2/3, 5). (Примітка: центроїд не повинен бути - і рідко - це одна з оригінальних точок даних)

Центроїд також іноді називають центром маси або барицентром, виходячи з його фізичної інтерпретації (це центр маси предмета, визначений точками). Як і середнє значення, розташування центроїда мінімізує відстань у квадраті від інших точок.

Пов'язана ідея - медоїд , який є точкою даних, яка "найменш відрізняється" від усіх інших точок даних. На відміну від центроїда, медоїд повинен бути однією з вихідних точок. Вас також може зацікавити геометрична медіана, яка є аналогічною медіані, але для багатовимірних даних. Вони обидва відрізняються від центроїда.

АБцентроїд(А)центроїд(Б)аiАdist(аi,б1)dist(аi,б2)dist(аi,бн)


За яких умов центроїд та медоїд мають бути однаковими? А також чому центроїд є хорошим представником набору точок?
raikumardipak

@dkr. Ви можете задати це питання як нове запитання, щоб отримати більше (і більш поглиблені) відповіді. Це означає, що різниця зводиться до двох речей: 1) річ, яку потрібно мінімізувати (квадратна відстань / норма L2 для центроїда, абсолютна відстань / норма L1 для медіода) та 2) чи може висновок бути будь-якою точкою (центроїдом) або повинні бути в наборі даних (медіод). Ви можете уявити випадки, коли вони будуть однакові, але в цілому вони не будуть. Центроїд "хороший" з тих же причин, середнє - це найменша відстань у квадраті до точок), а також має подібні недоліки (наприклад, не є надійними щодо людей, що вижили).
Метт Крауз

4

Вищенаведена відповідь може бути неправильною. Дивіться це відео: https://www.youtube.com/watch?v=VMyXc3SiEqs Здається, що середнє значення складає всі комбінації відстаней між елементами кластеру 1 та кластером 2 - тобто n ^ 2 відстані додаються разом, а потім ділиться на n ^ 2 до середнього.

Метод Centroid спочатку обчислює середнє значення кожного кластера всередині себе. Тоді він обчислює одну відстань між цими середніми точками.


1
Привіт Габе! Я думаю, ти говориш про цю частину відео? Наскільки я знаю, центроїд і середнє значення для одного кластера - це одне і те ж, але, як ви вказали, відстань у центроїдах та середня відстань між двома кластерами - це різні міри. Я думав, що ОП питає про перше, але я теж трохи відредагував про останнє. Дякуємо, що вказали на це (+1) і ласкаво просимо до Cross Valified!
Метт Крауз

-1

центроїд - це середнє значення точок даних у кластері, точка центроїда не повинна міститись у наборі даних, тоді як медоїд - точка даних, яка наближається до центральної, медоїд повинен бути присутнім у вихідних даних

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.