Що робити, якщо ймовірності не рівні в правилі ".632?"


11

Це питання походить із цього питання щодо ".632 Правила". Я пишу з особливою посиланням на відповідь / нотацію користувача60603, наскільки це спрощує питання.

Ця відповідь починається з вибірки розміру із заміни, з різних предметів у колекції (виклик) її N. Тоді ймовірність того, що зразок відрізняється від конкретного елемента N, тоді єn i t h s i m ( 1 - 1 / n ) .n,nithsim(11/n).

У цій відповіді всі елементи N мають рівний шанс бути випадковим шляхом.

Моє запитання таке: припустимо, замість того, щоб у вищезазначеному питанні елементи, які потрібно намалювати, такі, що вони зазвичай розподіляються. Тобто, ми поділяємо стандартну нормальну криву з до на (скажімо) 100 підінтервалів однакової довжини. Кожен із 100 елементів у N має ймовірність намалювати, що дорівнює площі, підданої кривій у відповідному інтервалі.Z=4Z=4

Моє мислення було таке:

Міркування подібні до того, що у відповіді я думаю. Ймовірність того, що , з елемент N, дорівнює в якій - ймовірність малюванняsimmP(sim)=(1Fi)Fisi.

Ймовірність того, що певний елемент m знаходиться у вибірці S розміром n, є

= 1 - n 1 ( 1 - F i ) .

P(mS)=1P(mS)=11nP(sim)
=11n(1Fi).

Розрахунок, схоже, показує, що по мірі того, як довжина підінтервалів стає невеликою, відповідь збігається на те саме число, що і в першому випадку (ймовірності всі рівні).si

Це здається протиінтуїтивним (для мене), оскільки конструкція, здається, містить елементи N, які є рідкісними, тому я б очікував, що кількість менша, ніж .632.

Крім того, якщо це правильно, я думаю, що ми мали б

limn1n(1Fi)=lim(11/n)n=1/e,

які я ще не знаю ні правдивими, ні хибними.

Редагувати: Якщо це правда, можливо, це узагальнить деякі.

Дякую за будь-яку інформацію.


Я щойно запитав про останнє рівняння з математики SE (питання 791114), бо мене також цікавить, як воно узагальнюється, якщо воно взагалі є.
Даніель

... і коротка відповідь полягає в тому, що остання рівність є правильною для добре керованих PDF-файлів, тому відповідь на питання полягає в тому, що правило .632 застосовується для найрізноманітніших базових дистрибутивів.
Даніель

Чи можу я зняти чужу відповідь з іншого сайту та опублікувати її як свою? Тому я опублікував короткий коментар. Можливо, є прийнятий спосіб зробити це, якщо так я піддаюся.
Даніель

Звичайно, ви можете, просто згадайте джерело в якийсь момент :)
Firebug

@Firebug: чи можете ви вказати на примірник, коли це робиться, щоб я бачив, що ви маєте на увазі? Дякую.
Даніель

Відповіді:


2

Питання задає питання про обмежувальну поведінку

(1)=1i=1n(1Fi)

по мірі зростання і рівномірно скорочуються таким чином, що (a) всі є негативними і (b) вони дорівнюють одиниці. (Вони випливають із побудови та аксіом вірогідності.)nFi Fi

За визначенням, цей продукт є експоненцією його логарифму:

i=1n(1Fi)=exp(i=1nlog(1Fi)).

Теорема Тейлора (з формою залишку Лагранжа) , застосована до , встановлює, щоlog

log(1Fi)=Fi12ϕi2Fi12Fi2

для деяких в інтервалі . Іншими словами, ці логарифми дорівнюють до термінів, які є максимум у рази . Але коли досить великий, щоб впевнитись, що всі менші, ніж деякі задані (умова, гарантована рівномірною усадкою ), тоді (b) означає і томуϕi[0,Fi]Fi 1/2Fi2nFiϵ>0Finϵ>Fi=1

i=1nFi2i=1nϵ2<i=1n(1n)2=1n.

Отже

1=i=1nFii=1nlog(1Fi)i=1nFi121n=112n

видавлює логарифм між двома послідовностями, що сходяться до . Оскільки неперервний, добуток до експоненції цієї межі, . Отже1expi=1n(1Fi)exp(1)

limn(1i=1n(1Fi))=1exp(1)0.632,

QED .


При більш детальному розгляді цього аналізу встановлено, що помилка в цьому наближенні (яка завжди буде нижньою межею) не має розміру більше, ніж Наприклад, поділ стандартного нормального розподілу на зрізів між і дає максимальний поблизу режиму , де він приблизно дорівнює площі прямокутника там, . Вищенаведена межа встановлює, що значення формули буде знаходитись у межах від граничного значення. Фактична помилка на порядок менша,

(exp((n/2)max(Fi2))1)exp(1).
n=40044Fi0exp(1/2)/500.012(1)0.0110.001041 . Ось розрахунок у R(якому ми можемо довіряти, оскільки жоден з справді малий щодо ):fi1
f <- diff(pnorm(seq(-4, 4, length.out=401))) # The normal "slices".
f <- f / sum(f)                              # Make them sum to unity.
exp(-1) - prod(1 - f)                        # Compute the error.

Дійсно, 1 - prod(1-f)це тоді як - .0.63316151exp(1)0.6321206


2
Аналіз помилок є дуже корисним аспектом цієї відповіді.
Даніель
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.