Ось приклад, якби я робив це в mplus, що може бути корисним і компліментом більш вичерпними відповідями:
Скажіть, у мене є три безперервні змінні і хочу визначити кластери на їх основі. Я б вказав модель суміші (більш конкретно в даному випадку модель латентного профілю), передбачаючи умовну незалежність (спостережувані змінні незалежні, враховуючи приналежність кластеру) як:
Model:
%Overall%
v1* v2* v3*; ! Freely estimated variances
[v1 v2 v3]; ! Freely estimated means
Я би запускав цю модель кілька разів, кожного разу вказуючи різну кількість кластерів, і вибирав рішення, яке мені найбільше подобається (робити це величезна тема самостійно).
Щоб потім запустити k-засоби, я б вказав таку модель:
Model:
%Overall%
v1@0 v2@0 v3@0; ! Variances constrained as zero
[v1 v2 v3]; ! Freely estimated means
Отже, членство в класі базується лише на відстані до засобів спостережуваних змінних. Як зазначено в інших відповідях, відхилення не мають нічого спільного.
Приємне, що робити це в mplus, це те, що це вкладені моделі, і тому ви можете безпосередньо перевірити, чи обмеження призводять до гіршого розміру чи ні, крім того, щоб можна було порівняти розбіжність у класифікації між двома методами. Обидві ці моделі, до речі, можна оцінити за допомогою алгоритму ЕМ, тому різниця справді більше стосується моделі.
Якщо ви думаєте, що у тривимірному просторі 3 означають точку ... і дисперсії трьох осей еліпсоїда, що проходить через цю точку. Якщо всі три дисперсії однакові, ви отримаєте сферу.