Пояснення формули для медіани найближчої точки до початку N зразків з одиничної кулі


12

В елементах статистичного навчання вводиться проблема висвітлення питань з k-nn у просторах високих розмірів. Існує точок даних, які рівномірно розподілені в -вимірній кулі одиниці.рNp

Середня відстань від початку до найближчої точки даних задається виразом:

d(p,N)=(1(12)1N)1p

Коли , формула розпадається на половину радіуса кулі, і я бачу, як найближча точка наближається до кордону як , завдяки чому інтуїція за кнн розпадається у великих розмірах. Але я не можу зрозуміти, чому формула залежить від Н. Чи міг би хтось уточнити?p N=1p

Також у цій книзі далі розглядається це питання, заявляючи: "... передбачити набагато складніше біля країв навчальної вибірки. Треба екстраполювати з сусідніх точок вибірки, а не інтерполювати між ними". Це здається глибоким твердженням, але я не можу зрозуміти, що це означає. Хтось може перемовити?


1
Потрібно трохи відредагувати відображене рівняння. Чи застосовується цей показник лише до цього у чисельнику таким чином, як він виглядає зараз, чи ви хотіли, щоб він застосовувався до цілого ? 111N112
Діліп Сарват

1
Це допомогло б відрізнити "гіперсферу" (яка в - це різновид розмірності ) від "одиничної кулі" (яка має розмірність ). Гіперсфера - межа кулі. Якщо, як зазначає ваша назва, всі точки відбираються від гіперсфери , то - за визначенням - всі вони мають відстань від початку, середня відстань дорівнює , і всі однаково близькі до початку. p-1p1Rpp1p11
whuber

@DilipSarwate Застосовується для цілого . У книзі є приклад, коли так N=500,p=10д(p,N)0,5212N=500,p=10d(p,N)0.52
user64773

Відповіді:


9

Об'єм -вимірного гіперболу радіусу має об'єм, пропорційний .r r pprrp

Тож пропорція об'єму більше відстані від початку є .r p - ( k r ) pkrrp(kr)prp=1kp

Імовірність того, що всі випадковим чином вибрані точки більше , ніж відстань від початку координат . Щоб отримати середню відстань до найближчої випадкової точки, встановіть цю ймовірність, рівну . Отжеk r ( 1 - k p ) N 1Nkr(1kp)N (1-kp)N=112

(1kp)N=12
k=(1121/N)1/p.

Наочно це робить будь - то сенс: чим більше випадкових точок є, чим ближче ви очікуєте , що найближчий до походження бути, тому слід очікувати бути спадною функцією від . Тут є спадною функцією , тому є зростаючою функцією , і таким чином є спадна функція як і її й корінь.kN21/NN121/NN1121/NNp


Ах, приємний погляд на це. Чи зможете ви переосмислити цитату в моєму другому запитанні?
користувач64773

Я підозрюю, що це може припустити, що у високих вимірах точки прогнозування фактично далекі від тренувальних даних, як ніби на краю сфери, тому ви насправді не інтерполюєте, а скоріше екстраполюєте, і тому невизначеності набагато більше. Але я насправді не знаю.
Генрі

Я цього не розумію - я розумію, чому цей вираз - це ймовірність того, що всі точки знаходяться далі від kr, але чому встановлення цієї ймовірності на 1/2 дає серединну відстань ??
ihadanny

1
@ihadanny: значення дає частку радіуса, де ймовірність усіх точок далі , і так, де ймовірність принаймні на одну точку ближче дорівнює , тому є медіаною розподілу відстані найближчої точки. k=(1121/N)1/pN12112=12kr
Генрі

1
Визначення медіани, половина більша і половина менша.
Грант Ізмірліан

2

І тепер, не махаючи рукою

  1. Для будь-якої послідовності iid rv, де - загальний CDFF

    P(min1iNYi>y)=(1F(y))N,
    F
  2. Таким чином, якщо ми маємо iid рівномірно розподіленого в одиничній кулі в розмірах, тоді де є загальним ВВР відстаней, . Нарешті, що таке CDF, , для рівномірно розподіленої точки в одиничній кулі в ? Ймовірність того, що точка лежить у кулі радіуса r в межах кулі одиничного радіуса, дорівнює відношенню об'ємів:NXip

    P(min1iN||Xi||>r)=(1F(r))N,
    F||Xi||,i=1,2,,NFRp

F(r)=P(||Xi||r)=Crp/(C1p)=rp

Таким чином рішення до

1/2=P(min1iN||Xi||>r)=(1rp)N

є

r=(1(1/2)1/N)1/p.

Крім того, ваше запитання про залежність від розміру вибірки, . Для фіксованих, оскільки м'яч заповнює більше точок, природно мінімальна відстань до початку повинна ставати меншою.рNp

Нарешті, у вашому співвідношенні обсягів є щось непотрібне. Схоже, має бути об’єм одиничної кулі в .R pkRp


0

Як стисло, але на словах:

Ми хочемо знайти серединну відстань, найближчу до точки початку, у рівномірно розподілених точок у кулі на початку одиничного радіусу в розмірах. Ймовірність того, що найменша відстань перевищує , (називаємо це виразом величини [1]) - силою ймовірності того, що одна рівномірно розподілена точка перевищує , через статистичну незалежність. Останнє - один мінус ймовірності того, що одна рівномірно розподілена точка менша за . Останнє - відношення об’ємів кулі радіуса до кулі одиничного радіуса, або . Тепер ми можемо записати вираз [1] якNprNthrrrrp

P(min1iN||Xi||>r)=(1rp)N.

Щоб знайти медіану розподілу мінімуму відстаней, встановіть вищевказану ймовірність на і вирішіть для , отримавши відповідь.1/2r

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.