Високомірні дані: Які корисні методи знати?

14

Через різні прокльони розмірності , точність та швидкість багатьох поширених методів прогнозування деградують на даних високих розмірів. Які є найбільш корисні методи / прийоми / евристики, які допомагають ефективно працювати з великомірними даними? Наприклад,

Чи добре виконуються певні методи статистичного / моделювання на високомірних наборах даних?
Чи можемо ми покращити ефективність наших прогнозних моделей на високомірних даних, використовуючи певні (які визначають альтернативні поняття відстані) або ядра (які визначають альтернативні поняття крапкового продукту)?
Які найбільш корисні методи зменшення розмірності для високомірних даних?

machine-learning statistics dimensionality-reduction

— ASX
джерело

10

Це дуже широке запитання, яке, на мою думку, неможливо всебічно висвітлити в одній відповіді. Тому я вважаю, що було б вигідніше надати деякі покажчики на відповідні відповіді та / або ресурси. Це саме те, що я зроблю, надаючи наступну інформацію та свої думки.

Перш за все, слід зазначити чудовий і всебічний підручник щодо зменшення розмірності Берджеса (2009) з Microsoft Research. Він часто торкається великих аспектів даних у всій монографії. Ця робота, маючи на увазі зменшення розмірності як зменшення розмірності , представляє теоретичне введення в проблему , пропонує систематику методів зменшення розмірності, що складається з проективних методів та методів багатоманітного моделювання , а також дає огляд декількох методів у кожній категорії.

Розглянуті методи " проективного слідування" включають аналіз незалежних компонентів (ICA) , аналіз основних компонентів (PCA) та його варіації, такі як PCA ядра та імовірнісний PCA , канонічний кореляційний аналіз (CCA) та його зміна CCA ядра , лінійний дискримінантний аналіз (LDA ) , зменшення розмірності ядра (KDR) та деякі інші. У різноманітних методах включають в себе оцінені багатовимірне масштабування (МДС) і його наземний орієнтир МДС варіація, Isomap , локально лінійне вкладеннята графічні методи, такі як власні карти Лаплаціа та спектральна кластеризація . Я перераховую тут більшість розглянутих методів на випадок, якщо оригінальна публікація недоступна для вас, або в Інтернеті (посилання вище), або в автономному режимі (Посилання).

Існує застереження щодо терміна "всебічний", який я застосував до вищезгаданої роботи. Хоча це і справді досить всебічно, це відносно, оскільки деякі підходи до зменшення розмірності не обговорюються в монографії, зокрема, ті, що зосереджені на непомітних (латентних) змінних . Однак деякі з них згадуються з посиланням на інше джерело - книгу про зменшення розмірності.

Зараз я коротко висвітлю декілька вужчих аспектів відповідної теми, посилаючись на мої відповідні чи пов’язані відповіді. Що стосується підходів, що стосуються найближчих сусідів (NN) до великомірних даних, будь ласка, дивіться мої відповіді тут (я особливо рекомендую переглянути документ №4 у своєму списку). Одним із наслідків прокляття розмірності є те, що високомірні дані часто рідкісні . Враховуючи цей факт, я вважаю, що мої відповідні відповіді тут і тут щодо регресії та PCA для розріджених та високомірних даних можуть бути корисними.

Список літератури

Burges, CJC (2010). Зменшення розмірів: екскурсія з екскурсією. Основи та тенденції в машинному навчанні, 2 (4), 275-365. doi: 10.1561 / 2200000002

— Олександр Блех
джерело

0

Олександр дав дуже вичерпну відповідь, але є кілька, які подаються до суду дуже широко:

Для зменшення розмірності використовується PCA. Це, однак, робить лише лінійне перетворення, а для нелінійного зменшення розмірності - те, що ви шукаєте.

Проектування даних з меншими розмірами на більш високі розміри можна здійснити за допомогою ядер. Зазвичай це робиться, коли ваш класифікатор не в змозі знайти лінійну площину поділу в поточному вимірі, але зможе знайти лінійну гіперплощину, яка розділяє класи на більш високий вимір. Ядра широко використовуються в SVM.

— ОЗП
джерело