Чи є спосіб визначити, які функції / змінні набору даних є найбільш важливими / домінуючими в кластерному рішенні k-означає?
Чи є спосіб визначити, які функції / змінні набору даних є найбільш важливими / домінуючими в кластерному рішенні k-означає?
Відповіді:
Один із способів кількісної оцінки корисності кожної функції (= змінна = розмірність) з книги Бернс, Роберт П. та Річард Бернс. Методи та статистика бізнес-досліджень за допомогою SPSS. Sage, 2008. ( дзеркало ), корисність визначається дискримінаційною силою функцій розрізняти кластери.
Зазвичай ми вивчаємо засоби для кожного кластеру в кожному вимірі, використовуючи ANOVA, щоб оцінити, наскільки наші кластери відрізняються. В ідеалі ми отримали б істотно різні засоби для більшості, якщо не всіх вимірів, що використовуються в аналізі. Величина значень F, виконаних для кожного виміру, є вказівкою на те, наскільки добре відповідний розмір розрізняє кластери.
Іншим способом було б видалити певну особливість і побачити, як це впливає на внутрішні показники якості . На відміну від першого рішення, вам доведеться повторити кластеризацію для кожної функції (або набору функцій), яку ви хочете проаналізувати.
FYI:
Я можу придумати ще дві можливості, які більше зосереджуються на тому, які змінні важливі для яких кластерів.
Класифікація багатокласних Розглянемо об'єкти, що належать кластеру x членів одного класу (наприклад, клас 1) та об'єкти, що належать до інших кластерів, членів другого класу (наприклад, класу 2). Навчіть класифікатора для прогнозування належності до класу (наприклад, 1 клас проти 2 класу). Змінні коефіцієнти класифікатора можуть слугувати для оцінки важливості кожної змінної в об'єктах кластеризації для кластера x . Повторіть такий підхід для всіх інших кластерів.
Подібність змінної внутрішньої кластерності. Для кожної змінної обчисліть середню схожість кожного об'єкта з його центроїдом. Змінна, яка має велику схожість між центроїдом та його об'єктами, ймовірно, важливіша для процесу кластеризації, ніж змінна, яка має низьку схожість. Звичайно, величина подібності відносна, але тепер змінні можна класифікувати за ступенем, до якого вони допомагають об'єднати об'єкти в кожному кластері.