Передумови : Я хочу класифікувати житлові райони міста на групи на основі їх соціально-економічних характеристик, включаючи щільність житлових одиниць, густоту населення, площу зелених насаджень, ціну житла, кількість шкіл / медичних центрів / дитсадок тощо. Хочу зрозуміти, на скільки різних груп можна розділити житлові райони та які їх унікальні характеристики. Ця інформація може полегшити містобудування.
На підставі деяких прикладів (див. Цю публікацію в блозі: PCA і K-означає кластеризація Delta Aircraft ) я зрозумів, як зробити аналіз:
Спочатку роблять аналіз PCA.
Визначте кількість унікальних груп (кластерів) на основі результатів PCA (наприклад, використовуючи метод «лікоть», або, альтернативно, кількість компонентів, що пояснює від 80 до 90% від загальної дисперсії).
Визначивши кількість кластерів, застосуйте k-засоби кластеризації, щоб зробити класифікацію.
Мої запитання: здавалося, кількість компонентів PCA пов'язана з аналізом кластерів. Так це правда, якщо, скажімо, ми виявили, що 5 компонентів PCA пояснили більше 90% варіацій усіх функцій, то ми застосуємо k-означає кластеризацію та отримаємо 5 кластерів. Тож би 5 груп точно відповідали 5 компонентам в аналізі PCA?
Іншими словами, я думаю, моє запитання таке: Який зв’язок між аналізом PCA та кластеризацією k-засобів?
Оновлення: Завдяки вкладам Emre, xeon та Kirill. Тож нинішні відповіді:
Робота PCA перед аналізом кластеризації також корисна для зменшення розмірності як екстрактор функцій та візуалізація / виявлення кластерів.
Проведення PCA після кластеризації може підтвердити алгоритм кластеризації (довідка: аналіз основних компонентів ядра ).
PCA іноді застосовується для зменшення розмірності набору даних до кластеризації. Однак Yeung & Ruzzo (2000) показали, що кластеризація з ПК замість оригінальних змінних не обов'язково покращує якість кластера. Зокрема, перші кілька ПК (які містять більшість варіацій даних) не обов'язково охоплюють більшу частину структури кластера.
- Йенг, Ка Йе та Вальтер Л. Руццо. Емпіричне дослідження основних аналізів компонентів для кластеризації даних про експресію генів. Технічний звіт, кафедра комп'ютерних наук та техніки, Університет Вашингтона, 2000. ( pdf )
Здавалося, PCA необхідний перед двоступеневим аналізом кластеризації . На основі Ibes (2015), в якому проводився кластерний аналіз з використанням факторів, визначених у PCA.
- Ібес, Дороті С. Багатовимірна класифікація та аналіз власного капіталу системи міського парку: Нова методологія та застосування кейсу. Ландшафт та містобудування , Том 137, травень 2015, Сторінки 122–137.