Чому в середньому кожен зразок завантажувача містить приблизно дві третини спостережень?


42

Я зіткнувся з твердженням, що кожен зразок завантажувального завантажувача (або мішковане дерево) буде містити в середньому приблизно спостережень.2/3

Я розумію, що шанс не бути відібраним у жодному з креслень із вибірок із заміною є , що спрацьовує приблизно до шансу не бути вибраним.nn(11/n)n1/3

Що таке математичне пояснення, чому ця формула завжди дає ?1/3


10
Я вважаю, що це походження у правилі завантаження 632+. .632
gung - Відновіть Моніку

Відповіді:


29

По суті, проблема полягає в тому, щоб показати, що (і звичайно, e ^ {- 1} = 1 / e \ приблизно 1/3 , хоча б дуже приблизно).limn(11/n)n=e1
e1=1/e1/3

Він не працює при дуже малому n - наприклад, при n=2 , (11/n)n=14 . Він проходить 13 при n=6 , проходить 0.35 при n=11 і 0.366 через n=99 . Після того, як ви вийдете за n=11 , 1e є кращим наближенням, ніж 13 .

введіть тут опис зображення

Сіра пунктирна лінія знаходиться в 13 ; червона та сіра лінія знаходиться на 1e .

Замість того, щоб показати формальну деривацію (яку легко знайти), я збираюся дати контур (це інтуїтивний, ручний хвильовий аргумент), чому має місце (трохи) більш загальний результат:

ex=limn(1+x/n)n

(Багато людей приймають це буде визначення з , але ви можете довести це з більш простих результатів , таких як визначення , як .)exp(x)elimn(1+1/n)n

Факт 1: Це випливає з основних результатів про потужності та експоненціюexp(x/n)n=exp(x)

Факт 2: Коли великий, Це випливає з розширення рядів для .nexp(x/n)1+x/nex

(Я можу навести повніші аргументи для кожного з них, але я припускаю, що ви їх вже знаєте)

Заміна (2) в (1). Зроблено. (Для цього , щоб працювати в якості більш формального аргументу б якусь - то роботу, тому що ви повинні показати , що інші члени в Fact 2 не стане досить великим , щоб викликати проблеми при прийомі до влади . Але це інтуїція а не формальне підтвердження.)n

[Крім того, просто візьміть серію Тейлора для першого порядку. Другий простий підхід - взяти біноміальне розширення і взяти граничний термін по строку, показуючи, що він дає умови в ряду для .]exp(x/n)(1+x/n)nexp(x/n)

Тож якщо , просто підставимо .ex=limn(1+x/n)nx=1

Відразу ми маємо результат у верхній частині цієї відповідіlimn(11/n)n=e1


Як зазначає Гунг у коментарях, результатом у вашому питанні є походження правила завантаження 632

наприклад див

Ефрон, Б. і Р. Tibshirani (1997),
"Покращення на крос-валідації: The .632+ Bootstrap Метод"
Журналі Американської статистичної асоціації Vol. 92, № 438. (черв.), Стор 548-560


41

Точніше, кожен зразок завантажувального завантажувача (або мішковане дерево) міститиме зразка.11e0.632

Давайте розберемося, як працює завантажувальна машина. У нас є оригінальний зразок з елементами. Ми малюємо предмети із заміною з цього оригінального набору, поки не з’явиться інший набір розміром .x1,x2,xnnn

З цього випливає, що ймовірність вибору будь-якого елемента (скажімо, ) під час першого розіграшу є . Тому ймовірність не обрати цей елемент . Це тільки для першого розіграшу; є загальна кількість малюнків, всі вони незалежні, тому ймовірність ніколи не вибирати цей елемент на жодному з малюнків становить .x11n11nn(11n)n

Тепер давайте подумаємо про те, що відбувається, коли стає все більшим і більшим. Ми можемо скористатись лімітом, коли йде до нескінченності, використовуючи звичайні підрахунки (або Wolfram Alpha): nn

limn(11n)n=1e0.368

Така ймовірність того, що предмет не буде обраний. Відніміть його від одного, щоб знайти ймовірність обраного елемента, що дає 0,632.


5

Вибірка із заміною може бути змодельована як послідовність біноміальних випробувань, де "успіх" є обраним екземпляром. Для початкового набору даних із екземплярів вірогідність "успіху" дорівнює , а ймовірність "відмови" - . Для розміру вибірки шанс вибору екземпляра точно разів задається біноміальним розподілом:n1/n(n1)/nbx

P(x,b,n)=(1n)x(n1n)bx(bx)

У конкретному випадку зразка завантажувача розмір вибірки дорівнює кількості екземплярів . Допускаючи наближення до нескінченності, отримуємо:bnn

limn(1n)x(n1n)nx(nx)=1ex!

Якщо наш початковий набір даних великий, ми можемо використовувати цю формулу для обчислення ймовірності того, що екземпляр буде обраний рівно разів у вибірці завантажувальної програми. Для ймовірність дорівнює , або приблизно . Таким чином, ймовірність вибірки примірника хоча б один раз становить .xx=01/e0.36810.368=0.632

Потрібно сказати, що я старанно виводив це за допомогою ручки та паперу, і навіть не думав використовувати Wolfram Alpha.


3

Просто додавши до відповіді @ retsreg, це також можна легко продемонструвати за допомогою чисельного моделювання в R:

N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632

1

Це легко помітити, порахувавши. Скільки всього можливих зразків? п ^ н. Скільки НЕ містять певного значення? (п-1) ^ н. Ймовірність того, що зразок не має конкретного значення - (1-1 / n) ^ n, що становить приблизно 1/3 в межі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.