Оцінка найважливіших особливостей у розділі кластера k-означає


19

Чи є спосіб визначити, які функції / змінні набору даних є найбільш важливими / домінуючими в кластерному рішенні k-означає?


1
Як ви визначаєте "важливого / домінуючого"? Ви маєте на увазі найкорисніше розмежувати кластери?
Франк Дернонкурт

3
Так, найкорисніше - це те, що я мав на увазі. Я думаю, що частиною моєї проблеми з з'ясуванням цього є те, як це сформулювати.
користувач1624577

Дякуємо за роз’яснення. Один звичайний термін для позначення цього питання в машинному навчанні - це вибір функції .
Франк Дернонкурт

Відповіді:


8

Один із способів кількісної оцінки корисності кожної функції (= змінна = розмірність) з книги Бернс, Роберт П. та Річард Бернс. Методи та статистика бізнес-досліджень за допомогою SPSS. Sage, 2008. ( дзеркало ), корисність визначається дискримінаційною силою функцій розрізняти кластери.

Зазвичай ми вивчаємо засоби для кожного кластеру в кожному вимірі, використовуючи ANOVA, щоб оцінити, наскільки наші кластери відрізняються. В ідеалі ми отримали б істотно різні засоби для більшості, якщо не всіх вимірів, що використовуються в аналізі. Величина значень F, виконаних для кожного виміру, є вказівкою на те, наскільки добре відповідний розмір розрізняє кластери.

Іншим способом було б видалити певну особливість і побачити, як це впливає на внутрішні показники якості . На відміну від першого рішення, вам доведеться повторити кластеризацію для кожної функції (або набору функцій), яку ви хочете проаналізувати.

FYI:


4
Це дуже важливо , щоб додати , що в цьому контексті слід НЕ приймати ті F (або р) значення в якості показників статистичної значущості (тобто по відношенню населення), а просто в якості індикаторів величини відмінностей.
ttnphns

3

Я можу придумати ще дві можливості, які більше зосереджуються на тому, які змінні важливі для яких кластерів.

  1. Класифікація багатокласних Розглянемо об'єкти, що належать кластеру x членів одного класу (наприклад, клас 1) та об'єкти, що належать до інших кластерів, членів другого класу (наприклад, класу 2). Навчіть класифікатора для прогнозування належності до класу (наприклад, 1 клас проти 2 класу). Змінні коефіцієнти класифікатора можуть слугувати для оцінки важливості кожної змінної в об'єктах кластеризації для кластера x . Повторіть такий підхід для всіх інших кластерів.

  2. Подібність змінної внутрішньої кластерності. Для кожної змінної обчисліть середню схожість кожного об'єкта з його центроїдом. Змінна, яка має велику схожість між центроїдом та його об'єктами, ймовірно, важливіша для процесу кластеризації, ніж змінна, яка має низьку схожість. Звичайно, величина подібності відносна, але тепер змінні можна класифікувати за ступенем, до якого вони допомагають об'єднати об'єкти в кожному кластері.


0

Ось дуже простий метод. Зауважимо, що евклідова відстань між двома центрами кластерів є сумою квадратної різниці між окремими ознаками. Тоді ми можемо просто використовувати різницю квадрата як вагу для кожної функції.

Евклідова відстань

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.