Гаразд, давайте проаналізуємо приклад того, що дитина кладе свої іграшки.
Уявіть, у дитини є лише 3 іграшки:
- синій футбольний м'яч
- синій фреш
- зелений кубик (гаразд, це не найсмішніша іграшка, яку ви можете собі уявити)
Давайте зробимо наступні початкові гіпотези щодо того, як можна зробити іграшку:
- Можливі кольори: червоний, зелений, синій
- Можливі форми: коло, квадрат, трикутник
Тепер у нас може бути (num_colors * num_shapes) = 3 * 3 = 9 можливих кластерів.
Хлопчик складе іграшки так:
- КЛАСТЕР А) містить синій кульку та синій фрісбей, оскільки ті мають однаковий колір та форму
- CLUSTER B) містить супер-смішний зелений куб
Використовуючи лише ці 2 розміри (колір, форма), ми маємо 2 не порожні кластери: тому в першому випадку 7/9 ~ 77% нашого простору порожнє.
Тепер давайте збільшимо кількість вимірів, які має врахувати дитина. Ми також робимо наступну гіпотезу щодо того, як можна зробити іграшку:
- Розмір іграшки може коливатися від декількох сантиметрів до 1 метра, з кроком в десять сантиметрів: 0-10см, 11-20см, ..., 91см-1м
- Вага іграшки може змінюватись аналогічно до 1 кілограма, з кроком 100 грам: 0-100г, 101-200г, ..., 901г-1кг.
Якщо ми хочемо об'єднати свої іграшки ЗАРАЗ, ми маємо (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 можливих кластерів.
Хлопчик складе іграшки так:
- КЛАСТЕР А) містить синій футбольний м'яч, оскільки синій і важкий
- КЛАСТЕР Б) містить синю фрезу, оскільки вона синя і світла
- CLUSTER C) містить супер-смішний зелений куб
Використовуючи поточні 4 розміри (форма, колір, розмір, вага), лише 3 кластери не порожні: тому в цьому випадку 897/900 ~ 99,7% місця порожнє.
Це приклад того, що ви знаходите у Вікіпедії ( https://en.wikipedia.org/wiki/Curse_of_dimensionsity ):
... коли розмірність збільшується, об'єм простору збільшується настільки швидко, що наявні дані стають рідкими.
Редагувати: Я не впевнений, що я дійсно міг би пояснити дитині, чому відстань іноді виходить неправильною у просторах, але спробуємо продовжити наш приклад дитини та його іграшок.
Розглянемо лише дві перші особливості {колір, форма} всі згодні з тим, що синя кулька більше схожа на синій фрісбек, ніж на зелений куб.
Тепер додамо ще 98 функцій {скажімо: розмір, вага, day_of_production_of_the_toy, матеріал, м'якість, day_in_which_the_toy_was_bought_by_daddy, ціна тощо}: ну, мені все складніше буде судити, яка іграшка схожа на яку.
Тому:
- Велика кількість функцій може бути неактуальною у певному порівнянні подібності, що призводить до пошкодження співвідношення сигнал-шум.
- У великих розмірах усі приклади "схожі на один одного".
Якщо ви слухаєте мене, хороша лекція - «Кілька корисних речей, які потрібно знати про машинне навчання» ( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ), пункт 6, зокрема, представляє це вид міркувань.
Сподіваюся, це допомагає!