Чи впливає прокляття розмірності на деякі моделі більше, ніж на інші?


15

Місця, які я читав про прокляття розмірності, пояснюють це в поєднанні насамперед з kNN та лінійними моделями взагалі. Я регулярно бачу найкращих рейтингів у Kaggle, використовуючи тисячі функцій на наборі даних, які навряд чи мають 100k балів даних. Вони, в основному, використовують бусте дерева та NN, серед інших. Це багато особливостей здається занадто високим, і я думаю, що вони можуть зазнати прокляття розмірності. Але це, мабуть, не так, оскільки ці моделі роблять їх топ-конкурентами. Отже, повернутися до мого первісного питання - чи деякі моделі впливають на прокляття розмірності більше, ніж на інші?

Зокрема, мене цікавлять такі моделі (лише тому, що це ті, про які я знаю / використовую):

  • Лінійна та логістична регресія
  • Дерева рішень / RandomForest / Підвищені дерева
  • Нейронні мережі
  • SVM
  • kNN
  • k-означає кластеризацію

Коротка відповідь, безумовно, так, але, можливо, ви хочете, щоб моделі, які вас насправді цікавлять? Я впевнений, що спільнота CV може розповісти вам про тисячі різних типів моделей, на які впливає прокляття розмірності. Тож звуження фокусу на певних моделях може допомогти відповісти на це питання.

@RustyStatistician - я додав декілька моделей, які мене цікавлять.
Dileep Kumar Patchigolla

Мене це питання дуже цікавить, але воно залишилося без відповіді. Як я можу це зробити наочно, щоб отримати відповіді?
Dileep Kumar Patchigolla

Відповіді:


17

Загалом, прокляття розмірності ускладнює проблему пошуку через простір і впливає на більшість алгоритмів, які «навчаються» шляхом розподілу їхнього векторного простору. Чим вище розмірність нашої проблеми оптимізації, тим більше даних нам потрібно, щоб заповнити простір, під який ми оптимізуємось.

Узагальнені лінійні моделі

β^=(XX)1Xy

Дерева
рішень Рішення дерев також страждають від прокляття розмірності. Дерева рішень безпосередньо розділяють пробний простір на кожному вузлі. Зі збільшенням простору вибірки відстані між точками даних збільшуються, що значно ускладнює пошук «хорошого» розколу.

Випадкові ліси
Випадкові ліси використовують колекцію дерев рішень, щоб зробити свої прогнози. Але замість того, щоб використовувати всі функції вашої проблеми, окремі дерева використовують лише підмножину функцій. Це мінімізує простір, який оптимізує кожне дерево, і може допомогти боротися з проблемою прокляття розмірності.


Алгоритми підсилення дерева Boosted Tree, такі як AdaBoost, страждають від прокляття розмірності і мають тенденцію до перенавантаження, якщо регуляризація не використовується. Я не буду заглиблюватися в глибину, оскільки публікація AdaBoost менш чи більше схильна до накладання? пояснює причину, чому краще, ніж я міг.

Нейронні мережі
Нейронні мережі дивні в тому сенсі, що на них обох є і не впливає прокляття розмірності, що залежить від архітектури, активацій, глибини тощо. Отже, щоб повторити прокляття розмірності - проблема, що величезна кількість очок необхідна у високій розміри для покриття вхідного простору. Один із способів інтерпретації глибоких нейронних мереж - це думати, що всі шари очікують, що останній шар виконує складну проекцію багатовимірного колектора на колектор нижнього розміру, де тоді останній шар класифікується вгорі. Так, наприклад, у конволюційній мережі для класифікації, де останній шар є шаром softmax, ми можемо інтерпретувати архітектуру як виконання нелінійної проекції на менший вимір, а потім робити багаточленну логістичну регресію (шар softmax) на цій проекції. Тож у певному сенсі стиснене уявлення наших даних дозволяє нам обійти прокляття розмірності. Знову ж таки, це одна інтерпретація, насправді прокляття розмірності насправді впливає на нейронні мережі, але не на тому самому рівні, як описані вище моделі.

SVM
SVM мають тенденцію не перенавантажувати стільки, скільки узагальнені лінійні моделі через надмірну регуляризацію, яка відбувається. Перегляньте цю публікацію SVM, Overfitting, прокляття розмірності для більш детальної інформації.

К-НН, К-значить

На K-середнє та K-NN сильно впливає прокляття розмірності, оскільки обидва вони використовують міру відстані L2 у квадраті. Зі збільшенням кількості розмірів збільшується і відстань між різними точками даних. Ось чому вам потрібно більше балів, щоб покрити більше місця, сподіваючись, що відстань буде більш описовою.

Сміливо запитайте конкретні дані про моделі, оскільки мої відповіді досить загальні. Сподіваюсь, це допомагає.


Привіт, амінь. Великі стислі пояснення для всіх моделей, про які я просив. Проблеми з лінійними моделями для мене все ще не зрозумілі: чи лінійні моделі працюють краще або гірше, ніж k-NN та k-значить моделі для однакових: розмірів? І коли ви сказали, що колінеарність є проблемою для лінійних моделей, ви маєте на увазі, що при відсутності (або мінімальної) колінеарності високі розміри не є проблемою для лінійних моделей?
Dileep Kumar Patchigolla

Важко підрахувати, чи лінійні моделі будуть працювати кращою за k-nn або k-засоби для довільної задачі. Якщо ваша проблема лінійно відокремлена, я ставлю свої ставки на лінійну модель, тоді як якщо ваш простір трохи складніший, я б пішов з k-nn. Колінеарність погіршує проблему прокляття розмірності, навіть без колінеарності, прокляття розмірності все ще застосовується. К-засоби повинні страждати в тій же мірі, що і k-nn, оскільки вони обидва керуються сусідом, і зазвичай використовують однакову функцію відстані. Насправді важко підрахувати, наскільки поганий КПК. Сподіваюся, це допомагає!
Армен Агаджанян

Яке ваше визначення прокляття розмірності (CoD)? Здається, ваша відповідь говорить про те, що лінійні моделі найбільше страждають від CoD, це вводить в оману: будучи глобальним методом, лінійні моделі страждають набагато менше, ніж локалізовані методи, такі як KNN.
Matifou
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.