Чому евклідова відстань не є хорошою метрикою у великих розмірах?


239

Я читав, що «Евклідова відстань - це не дуже добра відстань у великих розмірах». Я думаю, це твердження має щось спільне з прокляттям розмірності, але що саме? Крім того, що таке "високі розміри"? Я застосовував ієрархічну кластеризацію за допомогою евклідової відстані зі 100 ознаками. На скільки функцій безпечно використовувати цей показник?



5
Це, ймовірно, занадто базове для вас; Я написав серію публікацій в блозі на тему евклідової метрики в більш високих розмірах і про те, як це впливає на пошук векторних просторів для найближчих збігів. blogs.msdn.com/b/ericlippert/archive/tags/…
Ерік Ліпперт

1
@ HorstGrünbusch див. Відповіді нижче, щоб знайти деякі посилання. Різниця відстаней стає невеликою порівняно із середньою. Тож у якийсь момент у вас виникають проблеми з вибором порогів, ваг, замовлення; і у вас можуть виникнути навіть проблеми з точністю чисельності. Але якщо ваші дані рідкісні, це, ймовірно, значно меншої внутрішньої розмірності.
Аноні-Мус

3
"високі розміри" здаються оманливим терміном - деякі відповіді трактують 9-12 як "високі розміри", але в інших областях велика розмірність означатиме тисячі або мільйон розмірів (скажімо, вимірювання кутів між векторами мішок слів, де кожен вимір - частота якогось слова в словнику), і 100 вимірів можна назвати низькими, не високими.
Петріс

2
Це питання справді могло б мати певний контекст. Не добре для чого?
Саболч

Відповіді:


242

Чудовий підсумок неінтуїтивних результатів у більш високих вимірах походить з " Кілька корисних речей, які потрібно знати про машинне навчання " Педро Домінго в Університеті Вашингтона:

[O] ур інтуїції, які походять з тривимірного світу, часто не застосовуються у високомірних. У великих розмірах більша частина маси багатовимірного гауссового розподілу знаходиться не в середньому, а у все більш віддаленій «оболонці» навколо нього; і більша частина об’єму помаранчевого розміру знаходиться в шкірі, а не в м’якоті. Якщо постійна кількість прикладів розподіляється рівномірно у високомірному гіперкубі, поза деякими розмірами більшість прикладів ближче до обличчя гіперкуба, ніж до їх найближчого сусіда. І якщо ми наблизимо гіперсферу, вписавши її в гіперкуб, у великих розмірах майже весь обсяг гіперкуба знаходиться поза гіперсферою. Це погана новина для машинного навчання, коли форми одного типу часто наближаються до форм іншого.

Стаття також сповнена багатьох додаткових перлин мудрості для машинного навчання.

Інший додаток, поза машинним навчанням, - це пошук найближчого сусіда: даючи спостереження, що цікавить, знайдіть найближчих сусідів (у сенсі, що це точки, що мають найменшу відстань від точки запиту). Але у великих розмірах виникає цікаве явище: співвідношення між найближчою та найдальшою точками наближається до 1, тобто точки по суті стають рівномірно віддаленими одна від одної. Це явище можна спостерігати для найрізноманітніших метрик відстані, але воно є більш вираженим для евклідової метрики, ніж, скажімо, манхеттенська метрика відстані. Припущення пошуку найближчого сусіда полягає в тому, що "ближчі" точки є більш релевантними, ніж "дальші" точки, але якщо всі точки по суті рівномірно віддалені одна від одної, відмінність є безглуздою.

З Чару К. Агарваль, Олександр Гіннебург, Даніель А. Кейм, " Про дивну поведінку дистанційних метрик у просторі великого розміру ":

У [Кевіна Бейєра, Джонатана Голдштейна, Рагху Рамакришнана, Урі Валта, " Коли значення" найближчого сусіда має значення? ", Стверджувалося, що за певних розумних припущень щодо розподілу даних співвідношення відстаней найближчих та найдальших сусідів до заданої цілі у просторовому просторі майже 1 для широкого спектру розподілу даних та функцій відстані. У такому випадку проблема найближчого сусіда стає погано визначеною, оскільки контраст між відстанями до різних точок даних не існує. У таких випадках навіть концепція близькості може не мати значення з якісної точки зору: проблема, яка є ще більш фундаментальною, ніж деградація продуктивності високомірних алгоритмів.

... Багато високомірних структур та алгоритмів індексування використовують метрику [E] уклейдової відстані як природне продовження її традиційного використання у дво- або тривимірних просторових додатках. ... У цій роботі ми наводимо деякі дивовижні теоретичні та експериментальні результати аналізу залежності норми від значення . Більш конкретно, ми показуємо, що відносні контрасти відстаней до точки запиту сильно залежать від використовуваного метрики . Це дає вагомі докази того, що значущість норми швидше погіршується в межах збільшення розмірності для більш високих значень . Таким чином, для заданої задачі з фіксованим (високим) значенням розмірностіLkkLkLkkd, може бути кращим використовувати нижчі значення . Це означає, що метрика відстані (метрика відстані Манхеттена) є найбільш кращою для застосувань з високими розмірами, а за нею - метрика Евкліда ( ). ...kL1L2

Тоді автори статті "Дивовижна поведінка" пропонують використовувати норми з . Вони дають деякі результати, які демонструють, що ці "дробові норми" виявляють властивість збільшувати контраст між найдальшою та найближчою точками. Це може бути корисно в деяких контекстах, однак є застереження: ці "дробові норми" не є належними метриками відстані, оскільки вони порушують нерівність трикутника. Якщо нерівність трикутника є важливою якістю у ваших дослідженнях, то дробові показники не стануть надзвичайно корисними.Lkk<1


7
ця посилання є приголомшливою
Антуан

1
Ще раз читаємо ... Красиво ...
Річард Харді

113

Поняття евклідової відстані, яке добре працює у двовимірному та тривимірному світах, вивченому Евклідом, має деякі властивості у вищих розмірах, що суперечать нашій (можливо, просто моїй ) геометричній інтуїції, яка також є екстраполяцією з двох і трьох розміри.

Розглянемо квадрат із вершинами на . Накресліть чотири кола радіуса одиниці з центром . Вони "заповнюють" квадрат, при цьому кожне коло торкається сторін квадрата у двох точках, а кожне коло торкається двох своїх сусідів. Наприклад, коло з центром у торкається сторін квадрата в та , а сусідні кола - у та . Далі намалюйте невелике коло, зосереджене біля початку4×4(±2,±2)(±1,±1)(1,1)(2,1)(1,2)(1,0)(0,1)що стосується всіх чотирьох кіл. Оскільки відрізок лінії, кінцевими точками якого є центри двох коливальних кіл, проходить через точку коливання, легко перевірити, що мале коло має радіус і що він торкається дотиків до чотирьох більших кіл на . Зауважте, що мале коло «повністю оточене» чотирма більшими колами і, таким чином, також повністю знаходиться всередині квадрата. Зауважимо також, що точка лежить на малому колі. Зауважимо також , що від початку координат, один не може «бачити» точку на краю площі , так як лінія візування проходить через точку дотику з двох кіл з центром уr2=21(±r2/2,±r2/2)(r2,0)(2,0,0)(1,0,0)(1,1) та . Діто для ліній зору до інших точок, де осі проходять через краї квадрата.(1,1)

Далі розглянемо куб вершини на . Ми заповнюємо його кулями окуляційного осередку-радіуса, центрованими в , а потім ставимо меншу коливальну сферу, зосереджену біля початку. Зауважимо, що мала сфера має радіус а точка лежить на поверхні малої сфери. Але зауважте також, що в трьох вимірах можна "бачити" точку 4×4×4(±2,±2,±2)8(±1,±1,±1)r3=31<1(r3,0,0)(2,0,0)від походження; немає більших великих сфер, що блокують погляд, як це відбувається у двох вимірах. Ці чіткі лінії зору від походження до точок, де осі проходять через поверхню куба, трапляються і в усіх більших розмірах.

Узагальнюючи, ми можемо розглянути -вимірний гіперкуб сторони і заповнити його коливальною одиницею-радіусом гіперсфери з центром у а потім поставити "менший" коливальна сфера радіуса біля початку. Точка лежить на цій "меншій" сфері. Але, зауважимо з що коли , і так "менша" сфера має одиничний радіус і, таким чином, дійсно не заслуговує субрікету "менших" дляn42n(±1,±1,,±1)

(1)rn=n1
(rn,0,0,,0)(1)n=4rn=1n4. Справді, було б краще, якби ми назвали це "більшою сферою" або просто "центральною сферою". Як зазначається в останньому пункті, існує чітка лінія зору від початку до точок, де осі проходять через поверхню гіперкуба. Що ще гірше, коли ми маємо з що , і таким чином точка на центральній сфері лежить поза гіперкубою сторони хоча це "повністю оточений" одиницею-радіусом гіперсфери, що "заповнює" гіперкуб (у сенсі упаковки).n>9(1)rn>2(rn,0,0,,0)4 Центральна сфера «випинається» поза гіперкубом у просторовому просторі. Я вважаю це дуже протиінтуїтивним, оскільки мої ментальні переклади поняття евклідової відстані до вищих вимірів, використовуючи геометричну інтуїцію, яку я розробив із знайомого мені 2-простору та 3-простору, не описують реальність простір високого розміру.

Моя відповідь на питання ОП "Крім того, що таке" високі розміри "?" є .n9



9
@ stackoverflowuser2010: Якщо ця відповідь абсолютно незрозуміла, як ви можете сказати, чи стосується вона чи намагається вирішити оригінальне запитання? Більш конструктивним підходом може бути прохання з’ясувати будь-які пункти, які вам здаються незрозумілими, а не відхиляти всю річ поза рукою.
Scortchi

8
@ stackoverflowuser2010 Оскільки у цій відповіді є багато десятків підсумків, багато людей вважають, що це і розумно зрозуміло, і відповідають на певний прийнятний спосіб на питання. Можливо, ви можете спробувати більш конструктивну критику - як, конкретно, на вашу думку, ця відповідь буде покращена? Що він повинен включати, щоб цього не було?
Glen_b

1
@Scortchi: Можливо, я очікую занадто багато, але чітка відповідь на це питання, яка могла б допомогти громаді, буде чимось на кшталт "Евклідова відстань - не хороший показник, оскільки <X>".
stackoverflowuser2010

7
@ stackoverflow2010 Ви ніколи не побачите такої "хорошої" відповіді, тому що <речі набагато складніші, ніж твердження "if-then">. Якщо ви хочете отримати легку відповідь, швидше за все, це неправда. Як і прокляті брехуни Brexit, вони добре пропонували прості відповіді (помилкові, але легкі).
Аноні-Мус

42

Це питання сигналу-шуму . Евклідова відстань, обумовлена ​​квадратами, особливо чутлива до шуму; але навіть Манхеттенська відстань і "дробові" (неметричні) відстані страждають.

Я вважав дослідження в цій статті дуже освічуючими:

Зімек, А., Шуберт, Е. та Крігель, Х.-П. (2012),
опитування щодо непідконтрольного зовнішньому виявленню у великомірних числових даних.
Статистичний аналіз даних, майнінг, 5: 363–387. doi: 10.1002 / sam.11161

Він переглянув спостереження, зроблені, наприклад, про дивовижну поведінку дистанційних метрик у просторі великого розміру Аґгарваль, Гіннебург та Кейм, згадані @Pat. Але це також показує, наскільки синтетичні експерименти вводять в оману і що насправді високомірні дані можуть стати простішими . Якщо у вас багато (зайвого) сигналу, а нові розміри додають мало шуму.

Остання претензія, мабуть, найбільш очевидна при розгляді дублікатів розмірів. Картографування вашого набору даних збільшує репрезентативну розмірність, але зовсім не робить евклідову відстань невдалою. (Див. Також: Внутрішня розмірність )x,yx,y,x,y,x,y,x,y,...,x,y

Отже, зрештою, це все ще залежить від ваших даних. Якщо у вас багато непотрібних атрибутів, евклідова відстань стане марною. Якщо ви могли б легко вбудовувати свої дані у низькомірний простір даних, то евклідова відстань також повинна працювати у повномірному просторі. Зокрема, для розріджених даних, таких як вектори TF з тексту, здається, що дані мають набагато меншу розмірність, ніж передбачає векторна космічна модель.

Деякі люди вважають, що косинусова відстань краща, ніж евклідова за великомірними даними. Я не вважаю так: косинусова відстань та евклідова відстань тісно пов'язані; тому ми повинні очікувати, що вони страждають від тих же проблем. Однак текстові дані там, де косинус популярний, зазвичай рідкісні , а косинус швидший за рідкісними даними - тому для рідких даних є вагомі причини використовувати косинус; і тому, що дані є рідкими, внутрішня розмірність набагато менше, ніж розмірність векторного простору.

Дивіться також цю відповідь, яку я дав на попереднє запитання: https://stats.stackexchange.com/a/29647/7828


Середній кут випадково розміщених точок у завжди близький до 90 ° для великого (див. Сюжети тут )[1,1]nn
Мартін Тома

І який би був висновок з цього? На [-1; 1] ^ d не слід використовувати Cosine, оскільки він не визначений у 0, середній показник нічого не говорить про прокляття, а єдині дані нереально.
Аноні-Мус

Я до цього часу не пробував, але, мабуть, кути схожі на реальні дані. Те, що він не визначений у 0, насправді не має значення, оскільки це лише одна точка. Мій висновок схожий на ваш: відстань Косину не дуже підходить для просторів з великими розмірами (хоча, можливо, існують домени, якби це все ще працює)
Мартін Тома,

Більш реалістичним сценарієм були б точки по негативній одиничній сфері. І міра відсотків, ймовірно, буде дисперсією, а не означає.
Аноні-Мус

Щоб дістатися до сфери негативної одиниці, вам потрібно лише додати +1 і розділити на 2 ...
Мартін Тома

34

Найкраще місце для початку - це, мабуть, прочитати Про дивовижну поведінку метрики відстані у просторі великого розміру Аггарвал, Гіннебург та Кейм. Наразі тут працює посилання (pdf) , але воно має бути дуже здатним до google, якщо це порушиться. Коротше кажучи, у міру збільшення кількості вимірів відносна евклідова відстань між точкою у множині та найближчим сусідом та між цією точкою та її найдальшою сусідкою змінюється деякими неочевидними способами. Від того, чи буде це погано впливати на ваші результати, багато в чому залежить від того, що ви намагаєтеся досягти, і що ваші дані.


6

Евклідова відстань дуже рідко вибирається в машинному навчанні, і це стає більш очевидним у більш високих вимірах. Це тому, що більшу частину часу в машинному навчанні ви маєте справу не з евклідовим метричним простором, а з імовірнісним метричним простором, і тому вам слід використовувати ймовірнісні та інформаційно-теоретичні функції дистанції, наприклад, засновані на ентропії.

Людям подобається евклідовий простір, тому що його легко концептуалізувати, крім того, математично легко через властивості лінійності, які означають, що ми можемо застосовувати лінійну алгебру. Якщо ми визначимо відстані з точки зору, наприклад, дивергенції Кульбека-Лейблера, то складніше візуалізувати та працювати з математикою.


2
Це може бути проблематично, оскільки дивергенція KL не є показником. :-)
agarie

2
Якщо вам потрібна симетрія, ви можете використовувати Взаємну інформацію, яку, як натякано, можна визначити в термінах KL.
samthebest

3

Як аналогія, уявіть собі коло, орієнтоване на походження. Бали розподіляються рівномірно. Припустимо, випадково обрана точка знаходиться у (x1, x2). Евклідова відстань від початку походження становить ((x1) ^ 2 + (x2) ^ 2) ^ 0,5

Тепер уявіть, що точки рівномірно розподілені по кулі. Ця ж точка (x1, x2) тепер, ймовірно, буде (x1, x2, x3). Оскільки при рівномірному розподілі лише кілька точок мають одну з координат як нуль, то вважатимемо, що [x3! = 0] для нашої випадково вибраної рівномірно розподіленої точки. Таким чином, наша випадкова точка є найімовірнішою (x1, x2, x3), а не (x1, x2, 0).

Ефект цього полягає в тому, що будь-яка випадкова точка знаходиться зараз на відстані ((x1) ^ 2 + (x2) ^ 2 + (x3) ^ 2) ^ 0.5 від початку 3-D сфери. Ця відстань більша, ніж для випадкової точки біля початку виникнення 2-D кола. Ця проблема загострюється у вищих розмірах, тому ми обираємо інші показники, ніж розміри Евкліда, для роботи з більш високими розмірами.

EDIT: Є приказка, яку я зараз пам’ятаю: «Більша частина маси оранжевого кольору вищого розміру знаходиться в шкірі, а не в м’якоті», це означає, що у більш високих розмірах рівномірно розподілені точки є більш «поруч» (евклідова відстань) межа ніж походження.

Побічна примітка: Евклідова відстань не є ТООЛЬНОю для проблем із реальним світом через "благо нерівномірності", яка в основному зазначає, що для реальних даних ваші дані, ймовірно, НЕ будуть розподілятися рівномірно у просторі більш високого розміру, але буде займати невеликий кластеризований підмножина простору. Це має сенс інтуїтивно: якщо ви вимірюєте 100 величин щодо людей, таких як зріст, вага тощо, рівномірний розподіл по простору розмірів просто не має сенсу, наприклад, людина з (висота = 65 дюймів, вага = 150 фунтів, avg_calorie_intake = 4000), що просто неможливо в реальному світі.


Якщо будь-які майбутні читачі зацікавлені цитатою "помаранчевий / м'якоть" або зауваженням "благословення на нерівномірність", обидва з'являються у "Кількох корисних речей, щоб дізнатися про машинне навчання", з якими пов'язана моя відповідь на це нитка.
Sycorax

1

Ще одна сторона цього питання:

Дуже часто високі розміри проблем (машинного навчання / статистики) є наслідком надмірно обмежених особливостей.

Значення розмірів НЕ є незалежним (або некорельованим), але евклідові показники припускають (принаймні) невідповідність і, таким чином, можуть не дати найкращих результатів

Отже, щоб відповісти на ваше запитання, кількість "високих розмірів" пов'язане з тим, скільки функцій є взаємозалежними, надлишковими або надмірно обмеженими

Додатково: Це теорема Цисзара (та ін.), Що евклідові метрики є "природними" кандидатами для висновку, коли ознаки мають певні форми


3
Евклідова метрика не передбачає "некореляції". Евклідові відстані найгірше працюють у великих розмірах з некорельованими змінними. Розглянемо крайній випадок: у вас дуже багато розмірів, які всі ідеально співвідносяться, r = 1, тепер ваші дані насправді є одновимірними, а евклідова відстань справно працює з одновимірними даними.
gung

Ні, я не думаю, що евклідова відстань за визначенням передбачає некорельовані дані (за винятком випадків, коли використовується узагальнена евклідова відстань з кореляційною матрицею)
Нікос М.

Особливості з тотальною кореляцією (r = 1) є тривіальним прикладом і еквівалентно "тривіальній кореляційній матриці", але, можливо, я помиляюся
Нікос М.

@gung Евклідову втрату можна інтерпретувати як поперечну ентропійну втрату гауссів із матрицею ізотропної дисперсії з фіксованою одиницею. Я думаю, це хороший момент, але це можна було б краще пояснити.
Ніл Г

1
@NeilG, я поняття не маю, що це навіть означає. Розглянемо 2 площини на площині: & . Евклідова відстань між ними визначається як: ; тут, . Тепер уявіть, що на цій площині існує більше точок, але все лежить уздовж лінії , що робить кореляцію b / t 2 змінними . Яка евклідова відстань між цими двома точками? Це все ще . Тепер уявіть, що додаткові точки розташовані однаково st . Яка евклідова відстань між цими двома точками? Це все ще . (0,0)(1,1)dE=j(x2jx1j)22X1=X212cor(X1,X2)=02
gung

0

Цей документ може допомогти вам також "Покращене вимірювання подібності sqrt-косинуса" відвідайте https://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6 У цьому документі пояснюється, чому евклідова відстань не є хорошою метрикою у великих розмірах Дані і що є найкращою заміною евклідової відстані у даних високих розмірів. Евклідова відстань є нормою L2, і зменшуючи значення k у нормі Lk, ми можемо полегшити проблему відстані у даних високих розмірів. Посилання ви також можете знайти в цьому документі.


2
Ласкаво просимо на сайт. Ми намагаємось створити постійний сховище високоякісної статистичної інформації у вигляді запитань та відповідей. Таким чином, ми насторожено ставимося до відповідей, що стосуються лише посилань, завдяки linkrot. Чи можете ви опублікувати повне цитування та резюме інформації за посиланням, якщо вона загине?
gung
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.