Що означає загальна ss та ss в кластеризації k-означає?


10

Я дуже новачок у кластерному аналізі. Я використовую R для k-засобів кластеризації, і мені цікаво, що це за речі. А що краще, якщо їх співвідношення буде меншим чи більшим?

Відповіді:


12

Це, в основному, міра корисності класифікації k-засобів, що знайшла. SS очевидно означає Суму квадратів, тому це звичайне розкладання відхилення на відхилення "Між" та відхилення "В межах". В ідеалі потрібно кластеризація, яка має властивості внутрішньої згуртованості та зовнішнього поділу, тобто співвідношення BSS / TSS має наближатися до 1.

Наприклад, в R:

data(iris)
km <- kmeans(iris[,1:4], 3)

дає співвідношення BSS / TSS 88,4% (0,884), що вказує на гарну форму. Ви повинні бути обережними, і зазвичай корисно побудувати WSS проти кількості кластера, оскільки це число потрібно заздалегідь вказати.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.