Це дуже широке запитання, яке, на мою думку, неможливо всебічно висвітлити в одній відповіді. Тому я вважаю, що було б вигідніше надати деякі покажчики на відповідні відповіді та / або ресурси. Це саме те, що я зроблю, надаючи наступну інформацію та свої думки.
Перш за все, слід зазначити чудовий і всебічний підручник щодо зменшення розмірності Берджеса (2009) з Microsoft Research. Він часто торкається великих аспектів даних у всій монографії. Ця робота, маючи на увазі зменшення розмірності як зменшення розмірності , представляє теоретичне введення в проблему , пропонує систематику методів зменшення розмірності, що складається з проективних методів та методів багатоманітного моделювання , а також дає огляд декількох методів у кожній категорії.
Розглянуті методи " проективного слідування" включають аналіз незалежних компонентів (ICA) , аналіз основних компонентів (PCA) та його варіації, такі як PCA ядра та імовірнісний PCA , канонічний кореляційний аналіз (CCA) та його зміна CCA ядра , лінійний дискримінантний аналіз (LDA ) , зменшення розмірності ядра (KDR) та деякі інші. У різноманітних методах включають в себе оцінені багатовимірне масштабування (МДС) і його наземний орієнтир МДС варіація, Isomap , локально лінійне вкладеннята графічні методи, такі як власні карти Лаплаціа та спектральна кластеризація . Я перераховую тут більшість розглянутих методів на випадок, якщо оригінальна публікація недоступна для вас, або в Інтернеті (посилання вище), або в автономному режимі (Посилання).
Існує застереження щодо терміна "всебічний", який я застосував до вищезгаданої роботи. Хоча це і справді досить всебічно, це відносно, оскільки деякі підходи до зменшення розмірності не обговорюються в монографії, зокрема, ті, що зосереджені на непомітних (латентних) змінних . Однак деякі з них згадуються з посиланням на інше джерело - книгу про зменшення розмірності.
Зараз я коротко висвітлю декілька вужчих аспектів відповідної теми, посилаючись на мої відповідні чи пов’язані відповіді. Що стосується підходів, що стосуються найближчих сусідів (NN) до великомірних даних, будь ласка, дивіться мої відповіді тут (я особливо рекомендую переглянути документ №4 у своєму списку). Одним із наслідків прокляття розмірності є те, що високомірні дані часто рідкісні . Враховуючи цей факт, я вважаю, що мої відповідні відповіді тут і тут щодо регресії та PCA для розріджених та високомірних даних можуть бути корисними.
Список літератури
Burges, CJC (2010). Зменшення розмірів: екскурсія з екскурсією. Основи та тенденції в машинному навчанні, 2 (4), 275-365. doi: 10.1561 / 2200000002