к кратної перехресної перевірки, генерує "нові" набори даних, які відрізняються від вихідного набору даних, видаляючи кілька випадків.
Для зручності пояснення та ясності я б завантажував кластеризацію.
Взагалі, ви можете використовувати такі перекомпоновані кластери, щоб виміряти стабільність вашого рішення: чи він навряд чи зміниться або він повністю змінюється?
Незважаючи на те, що у вас немає основної істини, ви, звичайно, можете порівняти кластеризацію, що є результатом різних запусків одного методу (перекомпонування) або результатів різних алгоритмів кластеризації, наприклад, шляхом табуляції:
km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)
# 1 2 3
# 1 96 0 0
# 2 0 0 33
# 3 0 21 0
оскільки кластери номінальні, їх порядок може змінюватися довільно. Але це означає, що вам дозволяється змінювати порядок, щоб кластери відповідали. Тоді діагональні * елементи підраховують випадки, які присвоєні одному кластеру, а недіагональні елементи показують, яким чином змінилися призначення:
table (km1$cluster, km2$cluster)[c (1, 3, 2), ]
# 1 2 3
# 1 96 0 0
# 3 0 21 0
# 2 0 0 33
Я б сказав, що перекомпонування є гарним для того, щоб встановити, наскільки стабільною є ваша кластеризація у кожному методі. Без цього не має великого сенсу порівнювати результати з іншими методами.
i , i
Ви не змішуєте k-кратну перехресну перевірку і k-означає кластеризацію, чи не так?