Прокляття розмірності: kNN класифікатор


11

Я читаю книгу Кевіна Мерфі: Машинне навчання - ймовірнісна перспектива. У першому розділі автор пояснює прокляття розмірності, і є частина, яку я не розумію. Як приклад, автор зазначає:

Розглянемо, що входи рівномірно розподілені по D-мірному кубі одиниці. Припустимо, ми оцінюємо щільність міток класу шляхом вирощування гіпер куба навколо х до тих пір, поки він не містить бажаний дріб точок даних. Очікувана довжина ребра цього куба .fеD(f)=f1D

Це остання формула, яку я не можу опустити. здається, що якщо ви хочете покрити, скажімо, 10% точок, ніж довжина ребра повинна бути 0,1 по кожному виміру? Я знаю, що міркування невірно, але я не можу зрозуміти, чому.


6
Спробуйте спочатку зобразити ситуацію у двох вимірах. Якщо у мене аркуш паперу розміром 1 м * 1 м, і я вирізав квадрат з розміром 0,1 м * 0,1 м з лівого нижнього кута, я не видалив одну десяту частину паперу, а лише соту .
Девід Чжан

Відповіді:


13

Це саме несподівана поведінка відстаней у високих розмірах. Для 1 виміру у вас є інтервал [0, 1]. 10% балів - у відрізку довжиною 0,1. Але що відбувається в міру збільшення розмірності простору функції?

Цей вираз говорить вам, що якщо ви хочете мати 10% балів за 5 вимірів, вам потрібно мати довжину для куба 0,63, в 10 розмірах 0,79 і 0,98 на 100 розмірів.

Як бачите, для збільшення розмірів вам потрібно дивитися далі, щоб отримати однакову кількість очок. Ще більше, говорить вам, що більшість точок знаходяться на межі куба в міру збільшення кількості розмірів. Що несподівано.


4

Я думаю, що головне помітити - це вираз

еD(f)=f1D

дійсно крутий на початку. Це означає, що розмір краю, який вам знадобиться, щоб охопити певну частку обсягу, різко збільшиться, особливо на початку. тобто край, який вам потрібен, стане смішно великим у міру збільшенняD

Щоб зробити це ще більш зрозумілим, згадайте сюжет, який показує Мерфі:

введіть тут опис зображення

якщо ви помітили, що для значень нахил дійсно великий, отже, на початку ця функція зростає дуже круто. Це можна краще оцінити, якщо взяти похідну :D>1еD(f)

еD'(f)=1Df1D-1=1Df1-DD

Оскільки ми розглядаємо лише збільшення розміру (це цілі значення), ми дбаємо лише про цілі значення . Це означає, що . Розглянемо вираз для краю так:D>11-D<0

еD'(f)=1D(f1-D)1D

Зауважує, що ми піднімаємо до потужності менше 0 (тобто негативної). Коли ми піднімаємо число до негативних сил, ми в якийсь момент робимо зворотну реакцію (тобто ). Зворотне число, яке вже насправді мало (згадаємо оскільки ми розглядаємо лише частку обсягу, оскільки ми робимо KNN, тобто найближчих точок даних із загального ), означає, що число "зростатиме a багато ». Таким чином, ми отримуємо бажану поведінку, тобто, у міру збільшення потужність стає ще більш негативною, і, отже, необхідний край зростає значно залежно від того, наскільки великий збільшує показник.fх-1=1хf<1кNDD

(зауважте, що росте експоненціально порівняно з поділом який швидко стає незначним).f1-D1D


2

Так, якщо у вас є одиничний куб, або у вашому випадку одинична лінія, а дані розподілені рівномірно, вам потрібно пройти довжину 0,1, щоб захопити 10% даних. Тепер, коли ви збільшуєте розміри, D збільшується, що потужність потужності, а f менше 1, зростає, так що якщо D переходить до нескінченності, ви повинні захопити весь куб, e = 1.


0

Я думаю, що відстань від kNN відіграє більшу роль. Те, що відбувається з (гіпер) кубом, аналогічно тому, що відбувається з відстані між точками. Зі збільшенням кількості розмірів зростає відношення між найближчою до середньої відстані - це означає, що найближча точка знаходиться майже настільки ж далеко, як і середня точка, тоді вона має лише дещо більше прогнозуючу силу, ніж середня точка. Ця стаття це добре пояснює

Джоел Грус добре працює, описуючи цю проблему в Data Science від Scratch. У цій книзі він обчислює середні та мінімальні відстані між двома точками в розмірному просторі у міру збільшення кількості вимірів. Він обчислював 10 000 відстаней між точками, при цьому кількість розмірів становить від 0 до 100. Потім він переходить до побудови середньої та мінімальної відстані між двома точками, а також відношення найближчої відстані до середньої відстані (Distance_Closest / Distance_Average) .

На цих сюжетах Джоел показав, що відношення найближчої відстані до середньої відстані зросло від 0 при 0 розмірах, до ~ 0,8 при 100 розмірах. І це показує принципову проблему розмірності при використанні алгоритму k-найближчих сусідів; зі збільшенням кількості вимірювань і відношенням найближчої відстані до середньої відстані наближається 1 прогнозова потужність алгоритму зменшується. Якщо найближча точка майже настільки ж далека, як і середня точка, то вона має лише дещо більшу силу прогнозування, ніж середня точка.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.