Наскільки я знаю, "середнє" кластера і центроїд одного кластера - це одне і те ж, хоча термін "центроїд" може бути дещо точнішим, ніж "середній", коли йдеться про багатовимірні дані.
Щоб знайти центроїд, слід обчислити (арифметичне) середнє положення точок окремо для кожного виміру. Наприклад, якщо у вас були очки:
- (-1, 10, 3),
- (0, 5, 2) і
- (1, 20, 10),
тоді центроїд був би розташований у ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), що спрощує (0, 11 2/3, 5). (Примітка: центроїд не повинен бути - і рідко - це одна з оригінальних точок даних)
Центроїд також іноді називають центром маси або барицентром, виходячи з його фізичної інтерпретації (це центр маси предмета, визначений точками). Як і середнє значення, розташування центроїда мінімізує відстань у квадраті від інших точок.
Пов'язана ідея - медоїд , який є точкою даних, яка "найменш відрізняється" від усіх інших точок даних. На відміну від центроїда, медоїд повинен бути однією з вихідних точок. Вас також може зацікавити геометрична медіана, яка є аналогічною медіані, але для багатовимірних даних. Вони обидва відрізняються від центроїда.
АБцентроїд ( А )центроїд ( B )аiАdist ( ai, б1)dist ( ai, б2)dist ( ai, бн)