Чому в середньому кожен зразок завантажувача містить приблизно дві третини спостережень?

42

Я зіткнувся з твердженням, що кожен зразок завантажувального завантажувача (або мішковане дерево) буде містити в середньому приблизно спостережень. $2/3$

Я розумію, що шанс не бути відібраним у жодному з креслень із вибірок із заміною є , що спрацьовує приблизно до шансу не бути вибраним. $n$ $n$ $(1- 1/n)^n$ $1/3$

Що таке математичне пояснення, чому ця формула завжди дає ? $\approx 1/3$

bootstrap

— сизи
джерело

10

Я вважаю, що це походження у правилі завантаження 632+.

.632

$.632$

— gung - Відновіть Моніку

29

По суті, проблема полягає в тому, щоб показати, що (і звичайно, , хоча б дуже приблизно). $\lim_{n\to\infty}(1- 1/n)^n=e^{-1}$
$e^{-1} =1/e \approx 1/3$

Він не працює при дуже малому $n$ - наприклад, при $n=2$ , $(1- 1/n)^n=\frac{1}{4}$ . Він проходить $\frac{1}{3}$ при $n=6$ , проходить $0.35$ при $n=11$ і $0.366$ через $n=99$ . Після того, як ви вийдете за $n=11$ , $\frac{1}{e}$ є кращим наближенням, ніж $\frac{1}{3}$ .

введіть тут опис зображення

Сіра пунктирна лінія знаходиться в $\frac{1}{3}$ ; червона та сіра лінія знаходиться на $\frac{1}{e}$ .

Замість того, щоб показати формальну деривацію (яку легко знайти), я збираюся дати контур (це інтуїтивний, ручний хвильовий аргумент), чому має місце (трохи) більш загальний результат:

e^{x} = lim_{n \to \infty} {(1 + x / n)}^{n}

$e^x = \lim_{n\to \infty} \left(1 + x/n \right)^n$

(Багато людей приймають це буде визначення з , але ви можете довести це з більш простих результатів , таких як визначення , як .) $\exp(x)$ $e$ $\lim_{n\to \infty} \left(1 + 1/n \right)^n$

Факт 1: Це випливає з основних результатів про потужності та експоненцію $\exp(x/n)^n=\exp(x)\quad$

Факт 2: Коли великий, Це випливає з розширення рядів для . $n$ $\exp(x/n) \approx 1+x/n\quad$ $e^x$

(Я можу навести повніші аргументи для кожного з них, але я припускаю, що ви їх вже знаєте)

Заміна (2) в (1). Зроблено. (Для цього , щоб працювати в якості більш формального аргументу б якусь - то роботу, тому що ви повинні показати , що інші члени в Fact 2 не стане досить великим , щоб викликати проблеми при прийомі до влади . Але це інтуїція а не формальне підтвердження.) $n$

[Крім того, просто візьміть серію Тейлора для першого порядку. Другий простий підхід - взяти біноміальне розширення і взяти граничний термін по строку, показуючи, що він дає умови в ряду для .] $\exp(x/n)$ $\left(1 + x/n \right) ^n$ $\exp(x/n)$

Тож якщо , просто підставимо . $e^x = \lim_{n\to \infty} \left(1 + x/n \right) ^n$ $x=-1$

Відразу ми маємо результат у верхній частині цієї відповіді $\lim_{n\to\infty}(1- 1/n)^n=e^{-1}$

Як зазначає Гунг у коментарях, результатом у вашому питанні є походження правила завантаження 632

наприклад див

Ефрон, Б. і Р. Tibshirani (1997),
"Покращення на крос-валідації: The .632+ Bootstrap Метод"
Журналі Американської статистичної асоціації Vol. 92, № 438. (черв.), Стор 548-560

— Glen_b
джерело

41

Точніше, кожен зразок завантажувального завантажувача (або мішковане дерево) міститиме зразка. $1-\frac{1}{e} \approx 0.632$

Давайте розберемося, як працює завантажувальна машина. У нас є оригінальний зразок з елементами. Ми малюємо предмети із заміною з цього оригінального набору, поки не з’явиться інший набір розміром . $x_1, x_2, \ldots x_n$ $n$ $n$

З цього випливає, що ймовірність вибору будь-якого елемента (скажімо, ) під час першого розіграшу є . Тому ймовірність не обрати цей елемент . Це тільки для першого розіграшу; є загальна кількість малюнків, всі вони незалежні, тому ймовірність ніколи не вибирати цей елемент на жодному з малюнків становить . $x_1$ $\frac{1}{n}$ $1 - \frac{1}{n}$ $n$ $(1-\frac{1}{n})^n$

Тепер давайте подумаємо про те, що відбувається, коли стає все більшим і більшим. Ми можемо скористатись лімітом, коли йде до нескінченності, використовуючи звичайні підрахунки (або Wolfram Alpha): $n$ $n$

lim_{n \to \infty} (1 - \frac{1}{n})^{n} = \frac{1}{e} \approx 0.368

$\lim_{n \rightarrow \infty} \big(1-\frac{1}{n}\big)^n = \frac{1}{e} \approx 0.368$

Така ймовірність того, що предмет не буде обраний. Відніміть його від одного, щоб знайти ймовірність обраного елемента, що дає 0,632.

— Метт Краузе
джерело

5

Вибірка із заміною може бути змодельована як послідовність біноміальних випробувань, де "успіх" є обраним екземпляром. Для початкового набору даних із екземплярів вірогідність "успіху" дорівнює , а ймовірність "відмови" - . Для розміру вибірки шанс вибору екземпляра точно разів задається біноміальним розподілом: $n$ $1/n$ $(n-1)/n$ $b$ $x$

P (x, b, n) = (\frac{1}{n})^{x} (\frac{n - 1}{n})^{b - x} (\binom{b}{x})

$P(x,b,n) = \bigl(\frac{1}{n}\bigr)^{x} \bigl(\frac{n-1}{n}\bigr)^{b-x} {b \choose x}$

У конкретному випадку зразка завантажувача розмір вибірки дорівнює кількості екземплярів . Допускаючи наближення до нескінченності, отримуємо: $b$ $n$ $n$

lim_{n \to \infty} (\frac{1}{n})^{x} (\frac{n - 1}{n})^{n - x} (\binom{n}{x}) = \frac{1}{e x!}

$\lim_{n \rightarrow \infty} \bigl(\frac{1}{n}\bigr)^{x} \bigl(\frac{n-1}{n}\bigr)^{n-x} {n \choose x} = \frac{1}{ex!}$

Якщо наш початковий набір даних великий, ми можемо використовувати цю формулу для обчислення ймовірності того, що екземпляр буде обраний рівно разів у вибірці завантажувальної програми. Для ймовірність дорівнює , або приблизно . Таким чином, ймовірність вибірки примірника хоча б один раз становить . $x$ $x = 0$ $1/e$ $0.368$ $1 - 0.368 = 0.632$

Потрібно сказати, що я старанно виводив це за допомогою ручки та паперу, і навіть не думав використовувати Wolfram Alpha.

— retsreg
джерело

3

Просто додавши до відповіді @ retsreg, це також можна легко продемонструвати за допомогою чисельного моделювання в R:

N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632

— фондж
джерело

1

Це легко помітити, порахувавши. Скільки всього можливих зразків? п ^ н. Скільки НЕ містять певного значення? (п-1) ^ н. Ймовірність того, що зразок не має конкретного значення - (1-1 / n) ^ n, що становить приблизно 1/3 в межі.

— Максим Хесін
джерело