Як PCA допоможе в аналізі кластеризації k-означає?


32

Передумови : Я хочу класифікувати житлові райони міста на групи на основі їх соціально-економічних характеристик, включаючи щільність житлових одиниць, густоту населення, площу зелених насаджень, ціну житла, кількість шкіл / медичних центрів / дитсадок тощо. Хочу зрозуміти, на скільки різних груп можна розділити житлові райони та які їх унікальні характеристики. Ця інформація може полегшити містобудування.

На підставі деяких прикладів (див. Цю публікацію в блозі: PCA і K-означає кластеризація Delta Aircraft ) я зрозумів, як зробити аналіз:

  1. Спочатку роблять аналіз PCA.

  2. Визначте кількість унікальних груп (кластерів) на основі результатів PCA (наприклад, використовуючи метод «лікоть», або, альтернативно, кількість компонентів, що пояснює від 80 до 90% від загальної дисперсії).

  3. Визначивши кількість кластерів, застосуйте k-засоби кластеризації, щоб зробити класифікацію.

Мої запитання: здавалося, кількість компонентів PCA пов'язана з аналізом кластерів. Так це правда, якщо, скажімо, ми виявили, що 5 компонентів PCA пояснили більше 90% варіацій усіх функцій, то ми застосуємо k-означає кластеризацію та отримаємо 5 кластерів. Тож би 5 груп точно відповідали 5 компонентам в аналізі PCA?

Іншими словами, я думаю, моє запитання таке: Який зв’язок між аналізом PCA та кластеризацією k-засобів?

Оновлення: Завдяки вкладам Emre, xeon та Kirill. Тож нинішні відповіді:

  1. Робота PCA перед аналізом кластеризації також корисна для зменшення розмірності як екстрактор функцій та візуалізація / виявлення кластерів.

  2. Проведення PCA після кластеризації може підтвердити алгоритм кластеризації (довідка: аналіз основних компонентів ядра ).

  3. PCA іноді застосовується для зменшення розмірності набору даних до кластеризації. Однак Yeung & Ruzzo (2000) показали, що кластеризація з ПК замість оригінальних змінних не обов'язково покращує якість кластера. Зокрема, перші кілька ПК (які містять більшість варіацій даних) не обов'язково охоплюють більшу частину структури кластера.

    • Йенг, Ка Йе та Вальтер Л. Руццо. Емпіричне дослідження основних аналізів компонентів для кластеризації даних про експресію генів. Технічний звіт, кафедра комп'ютерних наук та техніки, Університет Вашингтона, 2000. ( pdf )
  4. Здавалося, PCA необхідний перед двоступеневим аналізом кластеризації . На основі Ibes (2015), в якому проводився кластерний аналіз з використанням факторів, визначених у PCA.


1
Ви можете використовувати PCA для зменшення розмірності як екстрактор функцій та для візуалізації кластерів.
Емре

3
Почніть просто: запустіть класифікатор безпосередньо на наявних вами даних та відзначте продуктивність. Якщо вас не влаштовує продуктивність, спробуйте PCA (виберіть кількість компонентів на "коліні" відсортованого власного значення графіку) та запустіть k-засоби. Якщо ви бачите гарні кластери, є хороший шанс, що класифікатор PCA + зробить хорошу роботу.
Владислав Довгалець

1
Ви можете зробити PCA і після кластеризації, щоб перевірити алгоритм кластеризації; кольоровий код кожної точки за її міткою кластера. Я також рекомендую вивчити ядро PCA .
Емре

Існують методи, які одночасно виконують зменшення розмірності та кластеризацію. Ці методи шукають оптимально обране низькомірне представлення, щоб полегшити ідентифікацію кластерів. Наприклад, див. Пакет clustrd в R та пов'язані з ним посилання.
Нат

Відповіді:


16

PCA не є методом кластеризації. Але іноді це допомагає виявити кластери.

Припустимо, у вас є 10-мірні нормальні розподіли із середнім значенням (вектор нулів) та деякою коваріаційною матрицею з 3 напрямками, що мають більшу дисперсію, ніж інші. Застосування аналізу основних компонентів із трьома компонентами дасть вам ці вказівки у порядку зменшення, а підхід «лікоть» скаже вам, що ця кількість обраних компонентів є правильною. Однак це все одно буде хмара точок (1 кластер).010

Припустимо, у вас є 10 10-мірних нормальних розподілів із засобами , , ... (кошти залишаються майже на лінії) та подібними матрицями коваріації. Застосування PCA лише з 1 компонентом (після стандартизації) дасть вам напрямок, де ви будете спостерігати за всіма 10 кластерами. Аналізуючи пояснену дисперсію (підхід «лікоть»), ви побачите, що для опису цих даних достатньо одного компонента. 2 10 10 101102101010

0


Дякую за вкладені дані. Чи можете ви пояснити, що таке 10-мірні нормальні розподіли із середнім 0? Ви маєте на увазі десять змінних вхідних ознак, і кожна з них відповідає нормальному розподілу?
enaJ

Вибачте, я кажу про випадкову змінну, яка слідує за багатоваріантним нормальним розподілом із середнім значенням, яке буде 10-мірною векторною та коваріаційною матрицею, що є 10х10 симетричною матрицею.
Кирило
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.