Пояснення формули для медіани найближчої точки до початку N зразків з одиничної кулі

В елементах статистичного навчання вводиться проблема висвітлення питань з k-nn у просторах високих розмірів. Існує точок даних, які рівномірно розподілені в -вимірній кулі одиниці. $N$ $p$

Середня відстань від початку до найближчої точки даних задається виразом:

d (p, N) = {(1 - {(\frac{1}{2})}^{\frac{1}{N}})}^{\frac{1}{p}}

$d(p,N) = \left(1-\left(\frac{1}{2}\right)^\frac{1}{N}\right)^\frac{1}{p}$

Коли , формула розпадається на половину радіуса кулі, і я бачу, як найближча точка наближається до кордону як , завдяки чому інтуїція за кнн розпадається у великих розмірах. Але я не можу зрозуміти, чому формула залежить від Н. Чи міг би хтось уточнити? $N=1$ $p \rightarrow \infty$

Також у цій книзі далі розглядається це питання, заявляючи: "... передбачити набагато складніше біля країв навчальної вибірки. Треба екстраполювати з сусідніх точок вибірки, а не інтерполювати між ними". Це здається глибоким твердженням, але я не можу зрозуміти, що це означає. Хтось може перемовити?

self-study proof k-nearest-neighbour

— user64773
джерело

Потрібно трохи відредагувати відображене рівняння. Чи застосовується цей показник лише до цього у чисельнику таким чином, як він виглядає зараз, чи ви хотіли, щоб він застосовувався до цілого ?

\frac{1}{N}

$\frac 1N$

1

$1$

\frac{1}{2}

$\frac 12$

— Діліп Сарват

Це допомогло б відрізнити "гіперсферу" (яка в - це різновид розмірності ) від "одиничної кулі" (яка має розмірність ). Гіперсфера - межа кулі. Якщо, як зазначає ваша назва, всі точки відбираються від гіперсфери , то - за визначенням - всі вони мають відстань від початку, середня відстань дорівнює , і всі однаково близькі до початку.

R^{p}

$\mathbb{R}^p$

p - 1

$p-1$

p

$p$

1

$1$

1

$1$

— whuber

@DilipSarwate Застосовується для цілого . У книзі є приклад, коли так

\frac{1}{2}

$\frac{1}{2}$

N = 500, p = 10

$N=500, p=10$

d (p, N) \approx 0.52

$d(p, N) \approx 0.52$

— user64773

Відповіді:

Об'єм -вимірного гіперболу радіусу має об'єм, пропорційний . $p$ $r$ $r^p$

Тож пропорція об'єму більше відстані від початку є . $kr$ $\frac{r^p-(kr)^p}{r^p}=1-k^p$

Імовірність того, що всі випадковим чином вибрані точки більше , ніж відстань від початку координат . Щоб отримати середню відстань до найближчої випадкової точки, встановіть цю ймовірність, рівну . Отже $N$ $kr$ $\left(1-k^p\right)^N$ $\frac12$

{(1 - k^{p})}^{N} = \frac{1}{2}

$\left(1-k^p\right)^N=\tfrac12$

⟹ k = {(1 - \frac{1}{2^{1 / N}})}^{1 / p} .

$\implies k=\left(1-\tfrac1{2^{1/N}}\right)^{1/p}.$

Наочно це робить будь - то сенс: чим більше випадкових точок є, чим ближче ви очікуєте , що найближчий до походження бути, тому слід очікувати бути спадною функцією від . Тут є спадною функцією , тому є зростаючою функцією , і таким чином є спадна функція як і її й корінь. $k$ $N$ $2^{1/N}$ $N$ $\tfrac1{2^{1/N}}$ $N$ $1-\tfrac1{2^{1/N}}$ $N$ $p$

— Генрі
джерело

Ах, приємний погляд на це. Чи зможете ви переосмислити цитату в моєму другому запитанні?

— користувач64773

Я підозрюю, що це може припустити, що у високих вимірах точки прогнозування фактично далекі від тренувальних даних, як ніби на краю сфери, тому ви насправді не інтерполюєте, а скоріше екстраполюєте, і тому невизначеності набагато більше. Але я насправді не знаю.

— Генрі

Я цього не розумію - я розумію, чому цей вираз - це ймовірність того, що всі точки знаходяться далі від kr, але чому встановлення цієї ймовірності на 1/2 дає серединну відстань ??

— ihadanny

@ihadanny: значення дає частку радіуса, де ймовірність усіх точок далі , і так, де ймовірність принаймні на одну точку ближче дорівнює , тому є медіаною розподілу відстані найближчої точки.

k = {(1 - \frac{1}{2^{1 / N}})}^{1 / p}

$k=\left(1-\tfrac1{2^{1/N}}\right)^{1/p}$

N

$N$

\frac{1}{2}

$\frac12$

1 - \frac{1}{2} = \frac{1}{2}

$1-\frac12=\frac12$

k r

$kr$

— Генрі

Визначення медіани, половина більша і половина менша.

— Грант Ізмірліан

І тепер, не махаючи рукою

Для будь-якої послідовності iid rv, де - загальний CDF
$P (min_{1 \leq i \leq N} Y_{i} > y) = (1 - F (y))^{N},$ $P( \min_{1\le i\le N} Y_i > y ) = (1-F(y))^N,$ $F$
Таким чином, якщо ми маємо iid рівномірно розподіленого в одиничній кулі в розмірах, тоді де є загальним ВВР відстаней, . Нарешті, що таке CDF, , для рівномірно розподіленої точки в одиничній кулі в ? Ймовірність того, що точка лежить у кулі радіуса r в межах кулі одиничного радіуса, дорівнює відношенню об'ємів: $N$ $X_i$ $p$
$P (min_{1 \leq i \leq N} | | X_{i} | | > r) = (1 - F (r))^{N},$ $P( \min_{1\le i\le N} ||X_i|| > r ) = (1-F(r))^N,$ $F$ $||X_i||, i=1,2,\ldots,N$ $F$ $R^p$

F (r) = P (| | X_{i} | | \leq r) = C r^{p} / (C 1^{p}) = r^{p}

$F(r) = P ( ||X_i|| \le r ) = C r^p/( C 1^p) = r^p$

Таким чином рішення до

1 / 2 = P (min_{1 \leq i \leq N} | | X_{i} | | > r) = (1 - r^{p})^{N}

$1/2 = P( \min_{1\le i\le N} ||X_i|| > r ) = (1- r^p)^N$

r = (1 - (1 / 2)^{1 / N})^{1 / p} .

$r = (1 - (1/2)^{1/N})^{1/p}.$

Крім того, ваше запитання про залежність від розміру вибірки, . Для фіксованих, оскільки м'яч заповнює більше точок, природно мінімальна відстань до початку повинна ставати меншою. $N$ $p$

Нарешті, у вашому співвідношенні обсягів є щось непотрібне. Схоже, має бути об’єм одиничної кулі в . $k$ $R^p$

— Грант Ізмірліан
джерело

Як стисло, але на словах:

Ми хочемо знайти серединну відстань, найближчу до точки початку, у рівномірно розподілених точок у кулі на початку одиничного радіусу в розмірах. Ймовірність того, що найменша відстань перевищує , (називаємо це виразом величини [1]) - силою ймовірності того, що одна рівномірно розподілена точка перевищує , через статистичну незалежність. Останнє - один мінус ймовірності того, що одна рівномірно розподілена точка менша за . Останнє - відношення об’ємів кулі радіуса до кулі одиничного радіуса, або . Тепер ми можемо записати вираз [1] як $N$ $p$ $r$ $N^{th}$ $r$ $r$ $r$ $r^p$

P (min_{1 \leq i \leq N} | | X_{i} | | > r) = (1 - r^{p})^{N} .

$P( \min_{1\le i\le N} ||X_i|| > r ) = (1- r^p)^N.$

Щоб знайти медіану розподілу мінімуму відстаней, встановіть вищевказану ймовірність на і вирішіть для , отримавши відповідь. $1/2$ $r$

— Грант Ізмірліан
джерело