У чому полягає прокляття розмірності?


21

Зокрема, я шукаю посилання (папери, книги), які будуть суворо показувати і пояснювати прокляття розмірності. Це питання виникло після того, як я почав читати цю білу книгу Лафферті та Вассермана. У третьому абзаці вони згадують "добре відоме" рівняння, з якого випливає, що найкраща швидкість конвергенції - n4/(4d) ; якщо хтось може пояснити це (і пояснити це), це було б дуже корисно.

Крім того, чи може хтось вказати мені на посилання, яке походить з "добре відомого рівняння"?


7
Я не можу пояснити, але я вважаю, що чув, як звучать три різні версії прокляття: 1) більш високі розміри означають велику кількість роботи, що збільшується в експоненті; 3) у великих розмірах все, як правило, є рівновіддаленим, тому важко робити будь-які розрізнення.
Вейн

5
Ви могли інтерпретувати це геометрично. Скажіть, що у вас сфера в D розмірах з радіусом r = 1. Потім можна задати питання про те, яка частка об’єму сфери, що лежить між радіусом r = 1 та r = 1-e. Оскільки нам відомо, що об'єм сфери масштабується як k (d) * r ^ (d), де d - кількість вимірів, ми можемо отримати висновок, що частка задана 1- (1-e) ^ d. Таким чином, для сфери з високими розмірами більша частина об'єму зосереджена в тонкій оболонці біля поверхні. Детальніше про це див. У книзі Єпископів "Перезнання візерунків та машинне навчання".
доктор Майк

@Wayne Sure; плюс 5) більше димів зазвичай означає більше шуму.

Доктор Майк, я не дотримуюся логіки. Здається, ви говорите, що «оскільки більша частина обсягу зосереджена в тонкій оболонці біля поверхні сфери високої міри, то ти проклятий розмірністю». Чи можете ви пояснити далі, а може, явно показати мені, як аналогія пов'язана зі статистикою?
koda

Відповіді:


9

Слідкуючи за Richiemorrisroe, ось відповідне зображення з Елементів статистичного навчання , глава 2 (pp22-27):

ESL сторінка 25

Як ви можете бачити на верхній правій панелі, більше 1 сусіда на 1 одиницю в 1 вимірі, ніж сусідів на 1 одиницю в двох вимірах. 3 розміри були б ще гіршими!


7

Це не відповідь на ваше запитання прямо, але David Donoho має хорошу статтю про багатовимірному аналізі даних: Прокльони і Благословення Розмірності (пов'язані Слайди тут ), в якому він згадує три прокляття:

  • D(1/ϵ)Dϵ
  • г(1/ϵ)Dϵ
  • D(1/ϵ)Dϵ

6

Я знаю, що продовжую посилатися на це, але є чудове пояснення цього Елементи статистичного навчання , глава 2 (с. 22-27). Вони в основному зазначають, що зі збільшенням розмірів кількість даних потрібно збільшувати (експоненціально) разом із цим або не буде достатньо балів у більшому просторі вибірки для будь-якого корисного аналізу.

Вони посилаються на документ Беллмана (1961 р.) Як на своє джерело, яке, як видається, є його книгою "Процеси адаптивного управління", доступні в Amazon тут


+1. Пояснення в ESL чудово, а пов'язані діаграми дуже допомагають.
Зак

2

введіть тут опис зображення

Можливо, найвідоміший вплив сприймається наступним лімітом (який (опосередковано) проілюстровано на малюнку вище):

limгiмгiстмах-гiстмiнгiстмiн

Відстань на малюнку - це L2-основна евклідова відстань. Межа виражає те, що поняття відстані фіксує все менше інформації про схожість із збільшенням розмірності. Це впливає на такі алгоритми, як k-NN. Допускаючи дроби дляк в Lк-норми описаного афекту можуть бути змінені .


Вплив розмірності на дані в малюнках

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.