Поясніть дитині «Прокляття розмірності»


91

Я багато разів чув про прокляття розмірності, але якось ще не в змозі зрозуміти цю думку, це все туманно.

Чи може хтось пояснити це найбільш інтуїтивно, як ви пояснили це дитині, щоб я (та інші, що плуталися, як і я) міг зрозуміти це назавжди?


Редагувати:

А тепер скажімо, що дитина якось почула про кластеризацію (наприклад, вона вміє класти свої іграшки :)). Як збільшення розмірності зробить роботу зі згрупуванням своїх іграшок важче?

Наприклад, раніше вони враховували лише форму іграшки та колір іграшки (одноколірні іграшки), але тепер потрібно враховувати також розмір та вагу іграшок. Чому дитині складніше знайти подібні іграшки?


EDIT 2

Для обговорення мені потрібно уточнити, що під - "Чому дитині складніше знайти подібні іграшки" - я також маю на увазі, чому поняття відстані втрачається у просторах великого розміру?


4
Приємне запитання. І ти справді виводиш дитину у кожного статистику сюди: D Ти змусив мене також використовувати смайлик на обміні
стеками

2
Пов’язаний, але не дублікат: stats.stackexchange.com/questions/99171/…
Sycorax

6
«Прокляття розмірності для дитини»? Не перед нічним сном.
ttnphns

Відповіді:


78

Напевно, малюкові сподобається їсти печиво, тому припустимо, що у вас є ціла вантажівка з печивом, що мають інший колір, іншу форму, інший смак, іншу ціну ...

Якщо малюкові доводиться вибирати, але враховувати лише одну характеристику, наприклад, смак, у нього є чотири можливості: солодке, солене, кисле, гірке, тому дитині потрібно лише спробувати чотири печива, щоб знайти те, що йому найбільше подобається.

Якщо малюкові подобаються поєднання смаку та кольору, а є 4 (я тут досить оптимістичний :-)) різних кольорів, то йому вже доводиться вибирати серед 4x4 різних типів;

Якщо він хоче, крім того, врахувати форму печива і є 5 різних фігур, то йому доведеться спробувати 4x4x5 = 80 cookies

Ми могли б продовжувати, але після вживання всіх цих печива у нього вже може боліти живіт ... перш ніж він зможе зробити свій найкращий вибір :-) Окрім болю в животі, по-справжньому складно згадати відмінності у смаку. кожного печива.

Як ви бачите, (@Almo) більшість речей стає все складнішими, оскільки кількість розмірів збільшується, це стосується дорослих, комп'ютерів, а також дітей.


Якщо це пояснює правильну концепцію (я не знаю, чи це так), мені ця відповідь подобається, оскільки я впевнений, що дитина могла це зрозуміти.
Альмо

14
Мені подобається ваша відповідь, але я відчуваю, що на півдорозі. Я хотів би побачити відповідь, яка стосується того, як відстані стають все менш значущими із збільшенням кількості вимірів.
TrynnaDoStat

1
@TrynnaDoStat: добре я відповів на питання, чи не просив відстані? Я думаю, що жодна з опублікованих досі відповідей не говорить про відстані? Мені занадто цікаво, якщо я запитую, чому ви тільки просите це у мене?

3
@fcoppens Тому що ваша відповідь одна мені найкраще =)
TrynnaDoStat

Тож якщо у вас більше вимірів, вам також потрібно більше даних, що може бути неможливим.
Антон Андрєєв

53

Аналогія, яку я люблю використовувати для прокляття розмірності, трохи більше з геометричної сторони, але, сподіваюся, вона все ще достатньо корисна для вашої дитини.

Полювати на собаку легко і, можливо, зловити її, якби вона бігала по рівнині (два виміри). Полювати на птахів, які зараз мають додатковий вимір, набагато важче. Якщо ми робимо вигляд, що привиди - це істоти більш високого розміру (подібні до сфери, що взаємодіє з площею А. у Флотланді ), то їх ще важче зловити. :)


5
О, це добре! Я б навіть пішов в 1D напрямок ... Може, гусениця рухається в трубці?
Грег

2
Хороший момент ... То, може, дуже тонка гілка дерева з гусеницею на ній? Це якось наближає один вимір. Зазвичай на них полюють птахи, може, ворона поруч?
Грег

1
Ой! Маніпуляції з силою тяжіння було б недостатньо, якби ворони навчилися тактиці (вони дуже розумні!): Вони полюють на двійки, коли одна наближається знизу, а друга зверху. Вони знають, що якщо помилка використовує наддержаву, це зважило б шанси на користь однієї з таких ворон. Гммм .... Отже, що ж за помилка з двома надпотужними силами: маніпуляція з гравітацією та стискання часу? Невже це не вважатиметься страшенно важким для полювання на помилку в 5 вимірах?
Грег

1
Лову 2-х собак, що бігають навколо, можна розглядати як полювання в 4д, 10 собак у 20д, 10 ластівки в 30д ...
дені

1
@Greg, «ловити» не має на насправді нічого спільного з розмірністю, вони просто бігають незалежно один від одного (деякі занадто самостійно.)
Денису

19

Гаразд, давайте проаналізуємо приклад того, що дитина кладе свої іграшки.
Уявіть, у дитини є лише 3 іграшки:

  1. синій футбольний м'яч
  2. синій фреш
  3. зелений кубик (гаразд, це не найсмішніша іграшка, яку ви можете собі уявити)

Давайте зробимо наступні початкові гіпотези щодо того, як можна зробити іграшку:

  1. Можливі кольори: червоний, зелений, синій
  2. Можливі форми: коло, квадрат, трикутник

Тепер у нас може бути (num_colors * num_shapes) = 3 * 3 = 9 можливих кластерів.

Хлопчик складе іграшки так:

  • КЛАСТЕР А) містить синій кульку та синій фрісбей, оскільки ті мають однаковий колір та форму
  • CLUSTER B) містить супер-смішний зелений куб

Використовуючи лише ці 2 розміри (колір, форма), ми маємо 2 не порожні кластери: тому в першому випадку 7/9 ~ 77% нашого простору порожнє.

Тепер давайте збільшимо кількість вимірів, які має врахувати дитина. Ми також робимо наступну гіпотезу щодо того, як можна зробити іграшку:

  1. Розмір іграшки може коливатися від декількох сантиметрів до 1 метра, з кроком в десять сантиметрів: 0-10см, 11-20см, ..., 91см-1м
  2. Вага іграшки може змінюватись аналогічно до 1 кілограма, з кроком 100 грам: 0-100г, 101-200г, ..., 901г-1кг.

Якщо ми хочемо об'єднати свої іграшки ЗАРАЗ, ми маємо (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 можливих кластерів.

Хлопчик складе іграшки так:

  • КЛАСТЕР А) містить синій футбольний м'яч, оскільки синій і важкий
  • КЛАСТЕР Б) містить синю фрезу, оскільки вона синя і світла
  • CLUSTER C) містить супер-смішний зелений куб

Використовуючи поточні 4 розміри (форма, колір, розмір, вага), лише 3 кластери не порожні: тому в цьому випадку 897/900 ~ 99,7% місця порожнє.

Це приклад того, що ви знаходите у Вікіпедії ( https://en.wikipedia.org/wiki/Curse_of_dimensionsity ):
... коли розмірність збільшується, об'єм простору збільшується настільки швидко, що наявні дані стають рідкими.


Редагувати: Я не впевнений, що я дійсно міг би пояснити дитині, чому відстань іноді виходить неправильною у просторах, але спробуємо продовжити наш приклад дитини та його іграшок.

Розглянемо лише дві перші особливості {колір, форма} всі згодні з тим, що синя кулька більше схожа на синій фрісбек, ніж на зелений куб.

Тепер додамо ще 98 функцій {скажімо: розмір, вага, day_of_production_of_the_toy, матеріал, м'якість, day_in_which_the_toy_was_bought_by_daddy, ціна тощо}: ну, мені все складніше буде судити, яка іграшка схожа на яку.

Тому:

  1. Велика кількість функцій може бути неактуальною у певному порівнянні подібності, що призводить до пошкодження співвідношення сигнал-шум.
  2. У великих розмірах усі приклади "схожі на один одного".

Якщо ви слухаєте мене, хороша лекція - «Кілька корисних речей, які потрібно знати про машинне навчання» ( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ), пункт 6, зокрема, представляє це вид міркувань.

Сподіваюся, це допомагає!


Мені дуже подобається ваше пояснення, дякую. Зараз я набагато краще розумію розрідженість простору, але ви могли б «проілюструвати» частину, чому дитині важко знайти, які іграшки подібні у випадку більших розмірів? Виправте мене, якщо я помиляюся, але я розумію, що поняття відстані зіпсоване в таких просторах, тому важче визначити, які іграшки більше схожі. Чому так?
Марко

10100

@whuber: ти маєш рацію, щоб зробити це занадто просто, я використав неправильні слова
ndrplz

@whuber: але розмір буде часто розглядається як міра (деякі поняття) «розмір»
Кьєтіл б Халворсеном

@Kjetil - це цікавий момент, який дуже добре варто вивчити. Але чи не вважаєте ви важливим з'ясувати сенс, у якому той чи інший вимір є "розміром" і відрізнити його від інших значень "розміру" в статистичних умовах?
whuber

14

Я натрапив на таке посилання, яке забезпечує дуже інтуїтивне (і детальне) пояснення прокляття розмірності: http://www.visiondummy.com/2014/04/curse-dim dimenity-affect- classification/

У цій статті ми обговоримо так званий «Прокляття розмірності» та пояснимо, чому це важливо при розробці класифікатора. У наступних розділах я надам інтуїтивне пояснення цього поняття, проілюстроване чітким прикладом надягання через прокляття розмірності.

Кілька слів ця стаття (інтуїтивно зрозуміла), що для додавання більшої кількості функцій (тобто збільшення розмірності нашого простору) потрібно зібрати більше даних. Насправді кількість даних, які нам потрібно зібрати (щоб уникнути перевитрати), зростає експоненціально, оскільки ми додаємо більше вимірів.

Він також має приємні ілюстрації, такі як наступна:

введіть тут опис зображення


+1, посилання дійсно дуже добре! Я відредагував цитату та приклад зображення, але якщо ви можете додати короткий підсумок того, що там пояснено, було б ще краще.
амеба

1
Дякую за пропозицію. Я відповідним чином відредагував відповідь.
Костас

8

Прокляття розмірності дещо нечітке у визначенні, оскільки описує різні, але споріднені речі в різних дисциплінах. Далі ілюструється прокляття розмірності машинного навчання:

Припустимо, у дівчини є десять іграшок, з яких їй подобаються лише ті курсивом:

  • коричневий плюшевий ведмедик
  • синій автомобіль
  • червоний поїзд
  • жовтий екскаватор
  • зелена книга
  • сірий плюшевий морж
  • чорний фургон
  • рожевий куля
  • біла книга
  • помаранчева лялька

Тепер її батько хоче подарувати їй нову іграшку в подарунок на день народження і хоче, щоб вона сподобалась. Він дуже важко думає про те, які спільні іграшки їй сподобалися, і нарешті приходить до рішення. Він дарує доньці різнокольоровий пазл. Коли їй це не подобається, він відповідає: «Чому тобі це не подобається? Він містить літеру w. "

Батько став жертвою прокляття розмірності (та оптимізації у вибірці). Розглядаючи букви, він рухався у 26-мірному просторі, і тому дуже ймовірно, що він знайде якийсь критерій, що розділяє іграшки, які подобаються дочці. Це не повинно було бути однокритним критерієм, як у прикладі, але також могло бути чимось подібним

містить щонайменше один з a, n і p, але жоден з u, f і s.

Щоб адекватно сказати, чи букви є хорошим критерієм для визначення того, які іграшки подобається його дочці, батько повинен буде знати переваги своєї дочки щодо великої кількості іграшок¹ - або просто використовувати його мозок і лише враховувати параметри, які насправді можливо впливати на дочку думка.


¹ порядок: 226


1
+1 Дуже ясно, дякую. Це має бути прийнятою відповіддю.
MiniQuark

7
  • Придумайте коло, укладене в одиницю квадрата.
  • Подумайте про сферу, укладену в одиничний куб.
  • Подумайте про n-мірну гіперсферу, укладену в гіпер-кубі n-мірної одиниці.

1н одиницях. Однак об'єм гіперсфери зменшується з ростом n.

-вимірному випадку гіперсфера зникає! Оце прокляття.

π/4π/6


5

Я: "Я думаю про маленьку коричневу тварину, що починається з" S ". Що це?"

Її: "Білка!"

Я: "Гаразд, складніше. Я думаю про маленьку коричневу тварину. Що це?"

Її: "Ще білка?"

Я ні"

Її: "Щур, миша, волче?

Я: "Ні"

Її: "Гм ... дай мені поняття"

Я: "Ні, але я зроблю щось краще: я дозволю вам відповісти на питання CrossValidated"

Її: [стогне]

Я: "Питання: що таке прокляття розмірності? А ви вже знаєте відповідь"

Її: "Я це роблю?"

Я: "Ви це робите. Чому першу тварину було важче відгадати, ніж другу?"

Її: "Тому що є більше маленьких бурих тварин, ніж маленькі бурі тварини, що починаються з" S "?"

Я: "Правильно. І це прокляття розмірності. Давайте пограємо ще раз".

Її: "Добре"

Я: "Я щось замислююсь. Що це?"

Її: "Не справедливо. Ця гра - це важкий шлях".

Я: "Правда. Ось чому вони називають це прокляттям. Ви просто не можете робити добре, не знаючи того, про що я схильний думати".


4

Припустимо, ви хочете відправити деякі товари. Ви хочете витратити якомога менше місця під час упаковки товару (тобто залишити якомога менше порожнього місця), оскільки витрати на доставку пов'язані з обсягом конверта / коробки. У вашому розпорядженні контейнери (конверти, коробки) мають прямий кут, тому немає мішків тощо.

Перша проблема: відправте ручку («лінію») - ви можете скласти навколо неї коробку, не втрачаючи місця.

Друга проблема: доставити компакт-диск ("сфера"). Потрібно покласти його в квадратний конверт. Залежно від того, скільки років дитині, вона, можливо, зможе підрахувати, скільки конвертів залишиться порожнім (і все ще знає, що є компакт-диски, а не просто завантаження ;-)).

Третя проблема: подайте футбол (футбол, і його треба надути!). Вам потрібно буде помістити його в ящик, і деякий простір залишиться порожнім. Цей порожній простір буде більшою часткою від загального обсягу, ніж у прикладі CD.

У цей момент моя інтуїція з використанням цієї аналогії припиняється, тому що я не уявляю 4-го виміру.

EDIT: Аналогія є найбільш корисною (якщо вона взагалі є) для непараметричної оцінки, яка використовує спостереження, "локальні" до цікавої точки, щоб оцінити, скажімо, густину або регресійну функцію в цій точці. Прокляття розмірності полягає в тому, що у більш високих вимірах потрібно або набагато більший мікрорайон для даної кількості спостережень (що робить поняття місцевості сумнівним), або велика кількість даних.


Добре, дякую за пояснення. Так що в основному важче "заповнити" весь простір, тож чому вам потрібен значно більший зразок? Мені потрібно зробити своє питання трохи більш конкретним :) Я його відредагую, будь ласка, також перевірте іншу частину.
Марко

Так, дивіться мою
редакцію

3
нн

@whuber Ось де прокляття входить у приклад часового ряду. Скажімо, наш часовий ряд - це випадкова прогулянка за певну кількість (дискретного) часу, і на кожному етапі ходунок рухає випадкову (iid ~ рівномірну (-1, 1)) суму. Скажімо, ви відстежуєте, як летить на літаку. Тепер ваші реакції / зір лише такі гарні, і щоб тримати погляд на льоту, не маючи на всьому шляху, вам потрібно рухатись не більше ніж 0,5 одиниці в будь-якому напрямку. Звичайно, якщо ви будете довго чекати, муха скочить цю суму, і ви її втратите. Але, за будь-який фіксований проміжок часу, скільки шляхів (продовження)
Жульєн Клансі,

змусить вас втратити слід від мухи? Прокляття розмірності говорить: майже всі вони, як ви дозволяєте збільшувати час. І ви можете зробити зір максимально гарним, наскільки ви хочете (тобто ви можете виявити рухи alllllmost 1 в будь-якому напрямку), і відбувається те саме.
Жульєн Клансі

1

Мої 6 років більше на вірші дослідження першочергових причин, як у "але звідки взявся весь цей газ у Всесвіті?" ... ну, я думаю, ваша дитина розуміє "вищі виміри", що здається дуже навряд чи для мене.

н[0,1]н[12,12]н ?

(12)н2н (за властивостями геометричного розподілу). І як ви це знаєте з проблеми пшениці та шахівниці, це швидко стає надзвичайно величезним.

Тепер іди забирай свою кімнату, тато повинен працювати.

2н12


1
Ага, так, це те саме, що відповідь на файли cookie від f coppens, але менш креативна. Але це може допомогти недітям побачити це так, як це написано ...
Елвіс,

0

Існує класична, підручник, математична проблема, яка це показує.

Ви б краще заробити (варіант 1) 100 копійок на день, кожен день протягом місяця, або (варіант 2) копійки, що подвоюються щодня протягом місяця? Ви можете задати дитині це питання.

Якщо ви вибрали варіант 1,
в перший день ви отримуєте 100 копійок, в день 2 ви отримуєте 100 копійок, на 3 день ви отримуєте 100 копійок ... на 30 день ви отримуєте 100 копійок

нтгод день ви отримуєте 100 копійок.

загальна кількість грошей визначається шляхом множення кількості днів на кількість копійок на день:

i=130100=30100=3000

Якщо ви виберете варіант 2:
в перший день ви отримуєте 1 копійку в день 2, ви отримуєте 2 копійки в день 3, ви отримуєте 4 копійки в день 4, ви отримуєте 8 копійок в день, 5 день ви отримуєте 16 копійок ... на 30 день ви отримуєте 1,073,741,824 копійки

нтгод2н копійки.

i=1302н=(231)-1=2147483648-1=2147483647

Той, хто має жадібність, обере більшу кількість. Просту жадібність легко знайти і вимагає малої думки. Невиразні тварини легко здатні до жадібності - комахи в цьому гостро відомі. Люди здатні на набагато більше.

Якщо ви почнете з однієї копійки замість сотні, то жадібність легше, але якщо ви зміните потужність на поліном, то це складніше. Комплекс також може означати набагато цінніше.

Про "прокляття"
"Найважливішою" фізичною математичною операцією є інверсія матриці. Він приводить рішення систем парціальних диференціальних рівнянь, найпоширенішими з яких є рівняння Максвелла (електромагніта), рівняння Нав'є Стокса (рідини), рівняння Пуассона (дифузний перенос) та зміни закону Гука (тверді речовини, що деформуються). У кожному з цих рівнянь навколо них побудовані курси коледжу.

н3

Прокляття існує тому, що якщо його подолати, в кінці веселки є горщик із золотою цінністю. Це непросто - великі розуми активно вирішили проблему.

посилання:


1
Ваш приклад, здається, більше пов'язаний із відображенням різниці між поліноміальним та експоненціальним зростанням, на відміну від прокляття розмірності.
JM не є статистиком

поліном і експоненціальний ріст - це прокляття. Якби це було лінійним, тоді шифрування не працювало б, і синтез у пляшці було б легко імітувати. Ось перерахування "прокляття" (гіперпосилання вікіпедії) - без якого комп'ютерна математика раптом стала б набагато дивнішою, ніж вона є. en.wikipedia.org/wiki/…
EngrStudent

Це містознавство, що в 2008 році виявився величезний прорив в матричній інверсії, яка опускається на порядок нижче 2, але вона була класифікована і використовується для моделювання ядерної зброї чи іншого.
EngrStudent

1
Я майже переконався, поки "не використовувався для моделювання ядерної зброї чи подібної". ; P Але серйозно, Копперсміт-Виноград здається найкращим, хоча із загальною константою, яка робить його корисним лише для дійсно великих матриць.
JM не є статистиком

Дотично пов’язаний з вашою відповіддю та попереднім коментарем: обчислювальний показник ефективно не надто важкий, але обчислення постійних - справа інша.
JM не є статистиком

0

Fcop запропонував чудову аналогію з файлами cookie, але охопив лише аспект щільності вибірки прокляття розмірності. Ми можемо розширити цю аналогію до обсягу вибірки або відстані, розподіливши однакову кількість файлів cookie Fcop у, скажімо, десяти коробках в одному рядку, 10х10 коробок плоских на столі та 10х10х10 у стопі. Тоді ви можете показати, що щоб з'їсти однакову частку печива, дитині доведеться відкривати все більше коробок.

Мова йде дійсно про очікування, але давайте застосуємо підхід «найгіршого випадку» для ілюстрації.

Якщо є 8 печива, і ми хочемо з'їсти половину, тобто 4, з 10 ящиків у гіршому випадку нам потрібно лише відкрити 6 коробок. Це 60% - теж близько половини теж. Від 10х10 (знову в гіршому випадку) - 96 (%). А від 10х10х10 - 996 (99,6%). Це майже всі вони!

Можливо, аналогія сховища та відстань між кімнатами зробили б краще, ніж коробки тут.


Гарне розширення :-)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.