Чи може хтось пояснити, як мені 5 років, цю проблему з ESL Book Hastie?


9

Я працюю над книгою ESL Hastie, і мені важко займатися питанням 2.3. Питання таке:

введіть тут опис зображення

Ми розглядаємо оцінку найближчого сусіда за початком, і середнє відстань від початку до найближчої точки даних задається цим рівнянням. Я не маю уявлення, з чого почати з точки зору спроб цього вивести.

Я знаю, що більшість точок даних ближче до межі вибіркового простору, ніж до будь-якої іншої точки даних (прокляття розмірності), але у мене виникають труднощі при перекладі цього тексту в сенс лінійної алгебри / ймовірності.

Дякую!


4
Що означає "ELI5" у назві? Якщо ви хочете отримати це рівняння, вам потрібно буде почати з моделі ймовірності для точок у кулі: що це за модель? (Будь ласка, не вимагайте, щоб ваші читачі посилалися на книгу чи інший сайт, щоб зрозуміти ваше запитання.)
whuber

3
@whuber Я згоден - Скорочення - це жахлива схема хешування.
Sycorax повідомляє, що повернеться до Моніки

14
Вам п’ять років. Вдячний вам за те, що ви хочете зрозуміти ESL, але вам доведеться почекати, поки вам виповниться шість. Це книга для великих хлопців та дівчат.
Нік Кокс

4
П’ятирічний може початися з перегляду одновимірного випадку (p = 1). І як тільки це буде в руці, візьміть його звідти.
Марк Л. Стоун

3
Якщо у нас буде ELI5 прописано, що про ESL?
mdewey

Відповіді:


15

Нехай - відстань від початку, а - об'єм одиничної гіперсфери в розмірах. Тоді об'єм, що міститься в гіперсфері радіусу дорівнюєrV0[p]pr

V[r]=V0[p]rp

Якщо дозволити позначати частку об'єму, що міститься в цій гіперсфері, і визначимо , тоP=V[r]/V0[p]R=rp

P[R]=R

Якщо точки даних рівномірно розподілені в межах одиничного кулі, то для наведена вище формула являє собою інтегральну функцію розподілу (CDF) для . Це еквівалентно рівномірній щільності ймовірності для протягом одиничного інтервалу, тобто . Отже, як натякав Марк Стоун у коментарях, ми можемо звести розмірний випадок до еквівалентної 1D задачі.0R1RRp[R]=P[R]=1p

Тепер якщо у нас є одна точка , то за визначенням CDF ми маємо і . Якщо - найменше значення з точок, і всі точки незалежні, то CDF для задається (це стандартний результат універсальної теорії крайніх значень ).RPr[Rρ]=P[ρ]Pr[Rρ]=1P[ρ]Rminn

Pr[Rminρ]=Pr[Rρ]n=(1ρ)n

За визначенням медіани маємо яку ми можемо перепишіть як що еквівалентно бажаному результату.

12=Pr[(Rmin)medR]=(1R)n
(1dp)n=12

EDIT: Спроба відповіді " ELI5 " у трьох частинах.

  1. Для 1D випадку з однією точкою відстань розподіляється рівномірно по , тому медіана буде .[0,1]12

  2. У 1D розподіл на мінімум понад точок є першим випадком до ї потужності.nn

  3. У розмірах відстань не розподілено рівномірно, але є.prrp


1
Ха-ха, я дав коментар, що 5-річний старт може початися з перегляду випадку p = 1. Я думав над тим, щоб додати коментар, що чотирирічний може не тільки починатись із випадку p = 1, але й n = 1. Але я зрозумів, що дозволю 5-річній фігурі.
Марк Л. Стоун

1
Зауважте, що коли я відповідав на запитання, то після того, як @fcop було з'ясовано, прочитав: "Розгляньте N точок даних, рівномірно розподілених в p-мірній одиничній кулі, центрованій по початку. Покажіть, що серединна відстань від початку до початку найближчу точку даних задає ... ". Отже, одиничний куля відносно норми у розмірному просторі. Після цього питання було повернуто до оригіналу, що відрізняється і не так однозначно. (Дивіться ланцюжок коментарів під оригінальним запитанням.)L2p
GeoMatt22
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.