Що це означає, коли ми говоримо, що більшість точок у гіперкубі знаходиться на межі?


13

Якщо у мене 50-мірний гіперкуб. І я визначаю його межу на або де - розмірність гіперкуба. Тоді обчислення частки балів на межі гіперкуба складе . Що це означає? Чи означає це, що решта місця порожня? Якщо точок знаходяться на межі, то точки всередині куба не повинні розподілятися рівномірно?0,95 < x j < 1 x j 0,995 99 %0<хj<0,050,95<хj<1хj0,99599%


3
Ні, це означає, що периферія є просторішою, а ефект співмірний з розмірністю. Це дещо контрінтуїтивно. Це явище має наслідки для розподілу відстані між випадковими парами вузлів, які стають актуальними, коли потрібно кластеризувати або обчислити найближчих сусідів у просторових просторах.
Емре

Обчисліть, яка частка точок на відрізку лінії знаходиться біля її межі. Потім точки в квадраті. Потім вказує в кубі. Що ви можете сказати про них?
користувач253751

Відповіді:


28

Якщо говорити про " 99% балів у гіперкубі ", це трохи оману, оскільки гіперкуб містить нескінченно багато очок. Давайте поговоримо замість гучності.

Об'єм гіперкуба - добуток його бічних довжин. Для 50-мірної одиниці гіперкуба отримуємо

Total volume=1×1××150 times=150=1.

Тепер виключимо межі гіперкуба і подивимось на " інтер'єр " (я ставлю це в лапки, оскільки математичний термін інтер'єр має зовсім інше значення). Ми зберігаємо лише точки x=(x1,x2,,x50) які задовольняють

0.05<x1<0.95 and 0.05<x2<0.95 and  and 0.05<x50<0.95.
Який об'єм цього "інтер'єру"? Ну, "інтер'єр" - це знову гіперкуб, а довжина кожної сторони0.9 (=0.950.05 ... це допомагає уявити це у двох та трьох вимірах). Отже об'єм -
Interior volume=0.9×0.9××0.950 times=0.9500.005.
Зробіть висновок, що об'єм 'межі' (визначається як одинична гіперкуба без 'інтер’єр ') дорівнює 10.9500.995.

Це показує, що 99.5% об’єму 50-мірного гіперкуба сконцентровано на його " межі ".


Наступні дії: Ігнатій поставив цікаве запитання про те, як це пов'язано з вірогідністю. Ось приклад.

Скажімо, ви придумали модель (машинного навчання), яка прогнозує ціни на житло на основі 50 вхідних параметрів. Усі 50 вхідних параметрів незалежні і рівномірно розподілені між 0 і 1 .

Скажімо, що ваша модель працює дуже добре, якщо жоден з вхідних параметрів не є крайнім: Поки кожен вхідний параметр залишається від 0,05 до 0,95 , ваша модель прогнозує ціну житла майже ідеально. Але якщо один або декілька вхідних параметрів екстремальні (менше 0,05 або більше 0,95 ), передбачення вашої моделі абсолютно жахливі.

Будь-який заданий параметр введення є екстремальним з вірогідністю лише 10% . Так чітко це гарна модель, правда? Ні! Ймовірність того, що принаймні один із 50 параметрів є крайнім, становить 1-0,9500,995. Тож у 99.5% випадків прогноз вашої моделі жахливий.

Правило великого пальця: у великих розмірах, екстремальні спостереження - це правило, а не виняток.


7
Варто використовувати цитату ОП "Чи означає це, що решта місця порожня?" і відповідає: Ні, це означає, що решта місця порівняно мала . . . Або подібне своїми словами. . .
Ніл Слейтер

2
Дійсно приємне пояснення терміна "прокляття розмірності"
Ігнатія

Цікаво, чи правильно таке: взявши цей приклад, якщо набір функцій рівномірно розподілений по [0,1] у кожному з 50 вимірів, (99,5% -0,5%) = 99% об'єму (функція гіперкуба простір) фіксує лише 10% значень кожної функції
Ігнатій

"Будь-який заданий вхідний параметр є крайнім з вірогідністю лише 5%." Я думаю, що ця ймовірність становить 10%.
Родві

@Rodvi: Ви праві, звичайно, дякую! Виправлено це.
Elias Strehle

9

Ви можете чітко бачити візерунок навіть у нижчих розмірах.

1-й вимір. Візьміть лінію довжиною 10 та межу 1. Довжина межі дорівнює 2, а внутрішня - співвідношення 8, 1: 4.

2-й вимір. Візьміть квадрат сторони 10 і знову обмежте 1. Площа межі - 36, внутрішнє співвідношення 64, 9:16.

3-й вимір. Однакова довжина і межа. Об'єм кордону - 488, інтер'єр - 512, 61:64 - вже межа займає майже стільки ж простору, як інтер'єр.

4-й вимір, зараз межа 5904, а внутрішня частина 4096 - межа тепер більша.

Навіть для меншої та меншої граничної довжини, оскільки розмір збільшується, граничний об'єм завжди обійде інтер'єр.


0

Найкращий спосіб "зрозуміти" це (хоча для людини ІМХО неможливо) - порівняти обсяги n-мірної кулі та n-мірного куба. Зі збільшенням n (розмірності) весь обсяг кулі «витікає» і концентрується в кутах куба. Це корисний загальний принцип, який слід пам’ятати в теорії кодування та його застосуваннях.

Найкраще пояснення цього підручника - у книзі Річарда У. Хемінга «Теорія кодування та інформації» (3.6. Геометричний підхід, стор. 44).

Коротка стаття у Вікіпедії дасть вам короткий виклад того ж самого , якщо мати на увазі , що обсяг п-мірного одиничного куба завжди 1 ^ п.

Сподіваюся, це допоможе.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.