Чи правда, що процентний завантажувальний пристрій ніколи не повинен використовуватися?


31

У примітках MIT OpenCourseWare за 18.05. Вступ до ймовірностей та статистики, Весна 2014 року (зараз доступний тут ), вказується:

Метод первинного завантаження привабливий завдяки своїй простоті. Однак це залежить від розподілу завантажувального завантаження на основі конкретного зразка, який є хорошим наближенням до справжнього розподілу . Райс говорить про метод процентиля, «Хоча це пряме рівняння квантилів розподілу вибірки самозавантаження з довірчими межами може здатися спочатку привабливим, це пояснення кілька затемнити.» [2] Коротше кажучи, не використовуйте самозавантаження процентиля методу . Використовуйте замість цього емпіричний завантажувальний засіб (ми пояснили обидва з надією, що ви не переплутаєте емпіричну завантажувальну програму для процентильної завантажувальної програми).x¯x¯

[2] Джон Райс, Математична статистика та аналіз даних , 2-е видання, с. 272

Після невеликого пошуку в Інтернеті, це єдина цитата, яку я знайшов, яка прямо говорить про те, що процентний завантажувальний засіб не слід використовувати.

Що я пам’ятаю, читаючи з тексту Принципи та теорії для видобутку даних та машинного навчання від Clarke et al. полягає в тому, що основним виправданням завантажувального завантаження є той факт, що де - емпіричний CDF. (Я не пам'ятаю деталей поза цим.) F п

1ni=1nF^n(x)pF(x)
F^n

Чи правда, що метод процентного завантаження не повинен застосовуватися? Якщо так, для чого існують альтернативи, коли F не обов'язково відомий (тобто недостатньо інформації, щоб зробити параметричний завантажувальний інструмент)?


Оновлення

Оскільки вимагається уточнення, "емпірична завантажувальна програма" з цих приміток MIT посилається на таку процедуру: вони обчислюють δ1=(θ^θ^)α/2 і δ2=(θ^θ^)1α/2 з θ^ завантаженими оцінками θ і θ^ повна вибіркова оцінка θ , і отриманий оціночний довірчий інтервал буде [θ^δ2,θ^δ1] .

По суті, основна ідея така: емпіричне завантаження оцінює суму, пропорційну різниці між оцінкою точки і фактичним параметром, тобто , і використовує цю різницю, щоб придумати нижчу і верхні межі CIθ^θ

"Процентний завантажувальний пристрій" відноситься до наступного: використовуйте як довірчий інтервал для . У цій ситуації ми використовуємо завантажувальний інструмент для обчислення оцінок параметра, що становить інтерес, і беремо відсотки цих оцінок за довірчий інтервал.θ[θ^α/2,θ^1α/2]θ


2
Я сильно відредагував ваше оновлення. Перевірте, чи має сенс моє редагування. Ваші цитати з книги Ефрона були заплутаними, оскільки те, що описує Ефрон, не відповідає тому, що ваші нотатки MIT називають "емпіричним завантажувальним". Тому я просто залишив опис того, що роблять нотатки MIT. До речі, я збентежився з приводу одного з їхнього опису "емпіричної завантажувальної програми": на самій верхній частині сторінки 6 написано "Оскільки знаходиться на 90-му перцентилі ..." - Я не я не розумію цього. З прикладу видно, що ліва частина ІС задається відніманням 90-го перцентилі, тобто вашого . δ 2δ.1δ2
амеба каже, що поверніть Моніку

2
@amoeba правильні зміни. Дякуємо за допомогу протягом усього часу. Я думаю, що з нотатками MIT є деякі проблеми; їх опис труднощів із відсотковими завантажувальними програмами був не дуже зрозумілим, і їх аргумент проти них - це переважно звернення до влади. Я не міг відтворити їх останній числовий приклад проти перцентильної завантажувальної програми. Не думайте, що вони опрацьовували деякі деталі так само, як і ми, поки ми вирішували це корисне питання, і, отже, їхній текст може мати деякі недоліки.
EdM

Дивлячись на цю примітку MIT, я не бачу, як автори отримали довірчі інтервали у розділі 9 "Метод перцентиля завантаження (не слід використовувати)" [37.4, 42.4]. Здається, що зразок, який вони використовують, не є таким, як зразок у розділі 6, до якого вони роблять порівняння. Якщо взяти зразок для δ ∗ = x ∗ - x, про який повідомляється внизу сторінки 5, і додати середнє значення вибірки 40,3 та взяти CI, то отримані межі [38,9, 41,9] мають однакову ширину 3 як обмеження, про які вони повідомляють у розділі 6 [38.7, 41.7].
Збентежений

Відповіді:


21

Є деякі труднощі, які є загальними для всіх непараметричних оцінок завантажувальних інтервалів довірчих інтервалів (CI), деякі, які є більшою проблемою як із "емпіричним" (називається "базовим" у boot.ci()функції bootпакету R, так і у статті 1 ). і "процентних" оцінок ІС (як описано в Посиланні 2 ), і деяких, які можуть бути посилені за допомогою перцентильних ІС.

TL; DR : У деяких випадках оцінки CI відсоткової завантажувальної програми можуть працювати адекватно, але якщо певні припущення не дотримуються, то процентний CI може бути найгіршим вибором, а наступний гірший - емпірична / основна завантажувальна програма. Інші оцінки CI завантажувальної програми можуть бути більш надійними, з кращим покриттям. Все може бути проблематичним. Перегляд діагностичних діаграм, як завжди, допомагає уникнути можливих помилок, які виникають просто прийняттям результатів програмного розпорядку.

Налаштування завантаження

Загалом слідуючи термінології та аргументам Ref. 1 , ми маємо зразок дані взяті з незалежних і однаково розподілених випадкових величин поділяють інтегральної функції розподілу . Емпірична функція розподілу (EDF) , побудована за вибіркою даних є . Нас цікавить характеристика θ сукупності, оцінена за статистикою T , значення якої у вибірці становить t . Ми хотіли б знати, наскільки добре T оцінює θ , наприклад, розподіл ( T - θ ) .У я F Fy1,...,ynYiFF^θTtTθ(Tθ)

Непараметричні бутстраповскій використовує вибірку з EDF F , щоб імітувати вибірки з F , приймаючи R зразків , кожен з розміру п із заміною від у я . Значення, обчислені із зразків завантажувальної програми, позначаються "*". Наприклад, статистика T, обчислена на зразку завантажувальної програми j, надає значення T j .F^FRnyiTTj

Емпіричні / базові порівняно з перцентильними завантажувальними програмами

Емпірична / базова самозавантаження використовує розподіл серед R бутстраповскіх вибірок з F , щоб оцінити розподіл ( Т - & thetas ; ) в межах популяції , описуваної F самої. Таким чином, його оцінки CI засновані на розподілі ( T - t ) , де t - значення статистики в початковій вибірці.(Tt)RF^(Tθ)F(Tt)t

Цей підхід базується на фундаментальному принципі завантаження даних ( посилання 3 ):

Сукупність - до вибірки, як і вибірки до проб завантаження.

Перцентильний завантажувальний пристрій замість цього використовує квантори величин для визначення ІС. Ці оцінки можуть бути абсолютно різними, якщо в розподілі ( T - θ ) є перекос або зміщення .Tj(Tθ)

Скажіть, що спостерігається зміщення таке, що: ˉ T = t + B ,B

T¯=t+B,

де - середнє значення T j . Для конкретності скажімо, що 5-й і 95-й процентилі T j виражаються як ˉ T - δ 1 і ˉ T + δ 2 , де ˉ T - середнє значення для зразків завантажувальної завантажувальної машини, а δ 1 , δ 2 - кожен позитивний і потенційно різний, щоб допустити перекос. Оцінки на основі 5-го та 95-го ІС перцентилю безпосередньо даватимуться відповідно:T¯TjTjT¯δ1T¯+δ2T¯δ1,δ2

T¯δ1=t+Bδ1;T¯+δ2=t+B+δ2.

Оцінки ІС 5-го та 95-го перцентилів методом емпіричного / базового завантаження будуть відповідно ( Посилання 1 , екв. 5.6, сторінка 194):

2t(T¯+δ2)=tBδ2;2t(T¯δ1)=tB+δ1.

Таким чином, CI на основі відсотків як помиляються, так і перевертають напрямки потенційно асиметричних положень довірчих меж навколо центра, що зміщується вдвічі . Процентні CI від завантажувального завантаження в такому випадку не представляють розподілу .(Tθ)

Ця поведінка добре проілюстрована на цій сторінці для завантаження статистики настільки негативно упередженої, що початкова оцінка вибірки нижче 95% ІС на основі емпіричного / базового методу (який безпосередньо включає відповідну корекцію зміщення). 95% ІС на основі методу перцентиля, розташованих навколо подвійно негативно зміщеного центру, насправді є обома нижчими навіть від негативно зміщеної точки оцінки від вихідної вибірки!

Чи не слід ніколи використовувати процентний завантажувальний пристрій?

Це може бути завищення або заниження, залежно від вашої точки зору. Якщо ви можете задокументувати мінімальну зміщення та нахил, наприклад, візуалізуючи розподіл допомогою гістограми чи графіків щільності, процентний завантажувальний ряд повинен забезпечити, по суті, такий самий ІС, що і емпіричний / базовий ІС. Це, ймовірно, і краще, ніж просте нормальне наближення до ІС.(Tt)

Жоден підхід, однак, не забезпечує точність покриття, яку можуть забезпечити інші підходи до завантаження. Ефрон спочатку визнавав потенційні обмеження відсоткових ІС, але сказав: "Переважно ми будемо задоволені тим, щоб приклади різної міри успіху говорили самі за себе". ( Посилання 2 , стор. 3)

Подальша робота, узагальнена, наприклад, DiCiccio та Efron ( Посилання 4 ), розробила методи, які "покращуються на порядок за точністю стандартних інтервалів", що надаються емпіричним / базовим або перцентильним методами. Таким чином, можна стверджувати, що ні емпіричний / базовий, ні відсотковий методи не слід використовувати, якщо ви дбаєте про точність інтервалів.

У крайніх випадках, наприклад, вибірки безпосередньо з лонормального розподілу без перетворення, жодна оцінка завантажених ІС не може бути надійною, як зазначив Френк Харрелл .

Що обмежує надійність цих та інших завантажених CI?

Декілька питань, як правило, роблять завантажені КІ ненадійними. Одні застосовуються до всіх підходів, інші можуть бути полегшені іншими підходами, ніж емпіричний / базовий або перцентильний методи.

Перший, взагалі, питання, наскільки добре емпіричне розподіл F представляє розподіл населення F . Якщо цього не відбувається, жоден метод завантаження не буде надійним. Зокрема, завантаження для визначення чого-небудь, близького до екстремальних значень розподілу, може бути недостовірним. Це питання обговорюється в інших місцях на цьому веб-сайті, наприклад, тут і тут . Нечисленні, дискретні значення , доступні в хвостах F для будь-якого конкретного зразка не можуть являти собою хвости безперервного F дуже добре. Крайній, але показовий випадок намагається використовувати завантажувальний інструмент для оцінки статистики максимального порядку випадкової вибірки з рівномірногоF^FF^F розподілу, яктутдобре пояснено. Зауважте, що завантажувані 95% або 99% ІС самі є на хвостах розподілу, і, отже, можуть страждати від такої проблеми, особливо з невеликими розмірами вибірки.U[0,θ]

По- друге, немає ніяких гарантій того, що вибірка будь-якої кількості з F буде мати такий же розподіл , як відліків від F . Однак це припущення лежить в основі основного принципу завантаження даних. Кількість з цією бажаною властивістю називається ключовою . Як пояснює AdamO :F^F

Це означає, що якщо основний параметр змінюється, форма розподілу зміщується лише постійною, а шкала не обов'язково змінюється. Це сильне припущення!

Наприклад, якщо є зміщення, важливо знати , що вибірка з навколо θ таке ж , як вибірка з F навколо т . І це особлива проблема непараметричного відбору проб; як реф. 1 ставиться на сторінці 33:FθF^t

У непараметричних проблемах ситуація складніша. Зараз малоймовірно (але не суворо неможливо), що будь-яка кількість може бути рівноцінною.

Тому найкраще, що зазвичай можливо, - це наближення. Однак цю проблему часто можна вирішити адекватно. Можна оцінити, наскільки близько відбирається кількість вибірки, наприклад, зі стрижними ділянками, як рекомендують Canty et al . Вони можуть відображати, як розподіл завантажених оцінок змінюється на t , або наскільки добре перетворення h забезпечує величину ( h ( T ) - h ( t ) ), яка є ключовою. Методи вдосконалених завантажених КІ можуть спробувати знайти перетворення h(Tt)th(h(T)h(t))hтакий, що ближче до головного для оцінки КІ в трансформованій шкалі, а потім перетворюється назад до початкової шкали.(h(T)h(t))

Ця boot.ci()функція забезпечує студизовані CI завантажувального інструменту (звані DiCiccio та Efron "bootstrap- t " ) та B C a CI (зміщення виправляється та прискорюється, де "прискорення" має справу з перекосом), які є "точністю другого порядку" в тому, що різниця між бажаним і досягнутим покриттям α (наприклад, 95% ДІ) знаходиться на порядку n - 1 , проти лише точного першого порядку (порядку n - 0,5 ) для емпіричного / базового та перцентильного методів ( Посилання 1 , с. 212-3; посилання 4BCaαn1n0.5). Однак ці методи вимагають відстеження відхилень у кожному з завантажених зразків, а не лише окремих значень використовуваних цими простішими методами.Tj

В крайньому випадку, можливо, доведеться вдатися до завантажувального завантаження в самих завантажених зразках, щоб забезпечити адекватне регулювання довірчих інтервалів. Цей "подвійний завантажувач" описаний у Розділі 5.6 Посилання. 1 , з іншими розділами цієї книги пропонуються способи мінімізувати його крайні обчислювальні вимоги.


  1. Девісон, AC та Хінклі, методики Bootstrap Д. В. та їх застосування, Cambridge University Press, 1997 .

  2. Ефрон, Б. Методи завантаження: Ще один погляд на джекніф, Енн. Статист. 7: 1-26, 1979 .

  3. Фокс, Дж. І Вайсберг, С. Регресійні моделі завантаження у Р. Додаток до супутника R до прикладної регресії, друге видання (Sage, 2011). Перегляд станом на 10 жовтня 2017 року .

  4. DiCiccio, TJ та Efron, B. Довірчі інтервали Bootstrap. Стат. Наук. 11: 189-228, 1996 .

  5. Canty, AJ, Davison, AC, Hinkley, DV та Ventura, V. Bootstrap діагностика та засоби лікування. Можна. Дж. Стат. 34: 5-27, 2006 .


1
Я не дуже розумію, чому ви говорите, що "емпірична завантажувальна програма" була б "набагато менш чутлива" до відхилень від розподілу населення. Чи не відсотковий завантажувальний механізм і цей "емпіричний завантажувальний пристрій", використовуючи абсолютно однакові квантили завантаженого розподілу? Я подумав, що різниця полягає лише в тому, що якщо розподіл завантажувальної системи несиметричний навколо зразка, то інтервали від цих двох підходів будуть перевернуті. Як описано тут: en.wikipedia.org/wiki/… ("базовий" проти "перцентиль").
амеба каже, що повернеться Моніка

1
@amoeba вони відрізняються тим, як вони поводяться з упередженням в оцінках завантажувальної програми, а не лише в гортанні інтервалів. Ця відповідь потребує додаткової роботи, щоб відокремити питання емпіричного проти відсоткового завантаження від питань, пов'язаних із хвостами розподілу, які я дещо збентежив і які я сподіваюся уточнити через пару днів.
EdM

1
Я не підтримую цю відповідь, тому що, виходячи з наведених посилань та викладеного (дуже розумного) обґрунтування: " процентний завантажувальний пристрій ніколи не повинен використовуватися ", це просто завищення, а не "трохи". Так, якщо ми можемо, ми повинні використовувати якусь форму скорегованого на зсув методу завантаження, але ні, краще використовувати процентний завантажувальний інструмент, щоб отримати дещо неефективні оцінки CI, а не бездумно дотримуватися 2SE навколо середнього значення і подумати, що ми відкрили Америку. (Я багато в чому погоджуюся з тим, що сказано в основній частині відповіді. Тільки не останній абзац, оскільки я вважаю, що це залишає двері відкритими для неправильного тлумачення.)
usεr11852 каже Reinstate Monic

1
По суті було реорганізовано та виправлено, частково у відповідь на коментарі.
EdM

1
@ Написане вами те, що ви написали, еквівалентно формі, яку я надав для емпіричної / базової завантажувальної програми. Зверніть увагу , що ваш є θ * U - θ , де θ * U є верхньою процентиль інтерес серед зразків початкового завантаження. Таким чином , θ - U * = θ - ( θ * U - θ ) = 2 θ - θ * U . Я використовував тUθ^Uθ^θ^Uθ^U=θ^(θ^Uθ^)=2θ^θ^Ut for your θ^ and expressed θ^U as the bootstrap mean T¯ plus an offset δ2.
EdM

8

Some comments on different terminology between MIT / Rice and Efron's book

I think that EdM's answer does a fantastic job in answering the OPs original question, in relation to the MIT lecture notes. However, the OP also quotes the book from Efrom (2016) Computer Age Statistical Inference which uses slightly different definitions which may lead to confusion.


Chapter 11 - Student score sample correlation example

θ^=0.498B=2000θ^ for the student score sample correlation and plots the histogram of the results (page 186)

enter image description here

Standard interval bootstrap

He then defines the following Standard interval bootstrap :

θ^±1.96se^

For 95% coverage where se^ is taken to be the bootstrap standard error: seboot, also called the empirical standard deviation of the bootstrap values.

Empirical standard deviation of the bootstrap values:

Let the original sample be x=(x1,x2,...,xn) and the bootstrap sample be x=(x1,x2,...,xn). Each bootstrap sample b provides a bootstrap replication of the statistic of interest:

θ^b=s(xb)  for b=1,2,...,B

The resulting bootstrap estimate of standard error for θ^ is

se^boot=[b=1B(θ^bθ^)2/(B1)]1/2
θ^=b=1Bθ^bB

This definition seems different to the one used in EdM' answer:

The empirical/basic bootstrap uses the distribution of (Tt) among the R bootstrap samples from F^ to estimate the distribution of (Tθ) within the population described by F itself.


Percentile bootstrap

Here, both definitions seem aligned. From Efron page 186:

The percentile method uses the shape of the bootstrap distribution to improve upon the standard intervals. Having generated B replications θ^1,θ^2,...,θ^B we then use the percentiles of their distribution to define percentile confidence limits.

In this example, these are 0.118 and 0.758 respectively.

Quoting EdM:

The percentile bootstrap instead uses quantiles of the Tj values themselves to determine the CI.


Comparing the standard and percentile method as defined by Efron

Based on his own definitions, Efron goes to considerable length to argue that the percentile method is an improvement. For this example the resulting CI are:

enter image description here


Conclusion

I would argue that the OP's original question is aligned to the definitions provided by EdM. The edits made by the OP to clarify the definitions are aligned to Efron's book and are not exactly the same for Empirical vs Standard bootstrap CI.

Comments are welcome


2
Thanks for the terminological clarification. At first glance, the "standard interval bootstrap" CIs seem to be similar to the "normal" CIs produced by boot.ci(), in that they are based on a normal approximation to the errors and are forced to be symmetric about the sample estimate of θ. That's different from the "empirical/basic" CIs, which like "percentile" CIs allow for asymmetry. I was surprised at the large difference between "empirical/basic" CIs and "percentile" CIs in handling bias; I hadn't thought much about that until I tried to answer this question.
EdM

Just checked the manual for boot.ci(): "The normal intervals also use the bootstrap bias correction." So that seems to be a difference from the "standard interval bootstrap" described by Efron.
EdM

Fair enough - the normal intervals described in the book is the base case from which he builds to better and more precise approaches (all the way to BC and BCa) so it makes sense that it is not implemented
Xavier Bourret Sicotte

@EdM and Xavier: does Computer Age Statistical Inference describe the "empirical/basic" CIs at all? If so, how does the book call them? If not, isn't it strange?
amoeba says Reinstate Monica

1
@amoeba not that I can see at a first look through. The book is available as a pdf for personal use. As I argue in my answer and as noted in the book, there are better choices than "empirical/basic" and "percentile" CIs with respect to coverage, so I can see why one might be omitted: without bias and with symmetric CI, there isn't much difference between them. I certainly can't fault the inventor of the bootstrap for emphasizing his initial CI method, as it does lead more directly to BC and BCa than "empirical/basic.".
EdM

5

I'm following your guideline: "Looking for an answer drawing from credible and/or official sources."

The bootstrap was invented by Brad Efron. I think it's fair to say that he's a distinguished statistician. It is a fact that he is a professor at Stanford. I think that makes his opinions credible and official.

I believe that Computer Age Statistical Inference by Efron and Hastie is his latest book and so should reflect his current views. From p. 204 (11.7, notes and details),

Bootstrap confidence intervals are neither exact nor optimal , but aim instead for a wide applicability combined with near-exact accuracy.

If you read Chapter 11, "Bootstrap Confidence Intervals", he gives 4 methods of creating bootstrap confidence intervals. The second of these methods is (11.2) The Percentile Method. The third and the fourth methods are variants on the percentile method that attempt to correct for what Efron and Hastie describe as a bias in the confidence interval and for which they give a theoretical explanation.

As an aside, I can't decide if there is any difference between what the MIT people call empirical bootstrap CI and percentile CI. I may be having a brain fart, but I see the empirical method as the percentile method after subtracting off a fixed quantity. That should change nothing. I'm probably mis-reading, but I'd be truly grateful if someone can explain how I am mis-understanding their text.

Regardless, the leading authority doesn't seem to have an issue with percentile CI's. I also think his comment answers criticisms of bootstrap CI that are mentioned by some people.

MAJOR ADD ON

Firstly, after taking the time to digest the MIT chapter and the comments, the most important thing to note is that what MIT calls empirical bootstrap and percentile bootstrap differ - The empirical bootstrap and the percentile bootstrap will be different in that what they call the empirical bootstrap will be the interval [x¯δ.1,x¯δ.9] whereas the percentile bootstrap will have the confidence interval [x¯δ.9,x¯δ.1].
I would further argue that as per Efron-Hastie the percentile bootstrap is more canonical. The key to what MIT calls the empirical bootstrap is to look at the distribution of δ=x¯μ . But why x¯μ, why not μx¯. Just as reasonable. Further, the delta's for the second set is the defiled percentile bootstrap !. Efron uses the percentile and I think that the distribution of the actual means should be most fundamental. I would add that in addition to the Efron and Hastie and the 1979 paper of Efron mentioned in another answer, Efron wrote a book on the bootstrap in 1982. In all 3 sources there are mentions of percentile bootstrap, but I find no mention of what the MIT people call the empirical bootstrap. In addition, I'm pretty sure that they calculate the percentile bootstrap incorrectly. Below is an R notebook I wrote.

Commments on the MIT reference First let’s get the MIT data into R. I did a simple cut and paste job of their bootstrap samples and saved it to boot.txt.

Hide orig.boot = c(30, 37, 36, 43, 42, 43, 43, 46, 41, 42) boot = read.table(file = "boot.txt") means = as.numeric(lapply(boot,mean)) # lapply creates lists, not vectors. I use it ALWAYS for data frames. mu = mean(orig.boot) del = sort(means - mu) # the differences mu means del And further

Hide mu - sort(del)[3] mu - sort(del)[18] So we get the same answer they do. In particular I have the same 10th and 90th percentile. I want to point out that the range from the 10th to the 90th percentile is 3. This is the same as MIT has.

What are my means?

Hide means sort(means) I’m getting different means. Important point- my 10th and 90th mean 38.9 and 41.9 . This is what I would expect. They are different because I am considering distances from 40.3, so I am reversing the subtraction order. Note that 40.3-38.9 = 1.4 (and 40.3 - 1.6 = 38.7). So what they call the percentile bootstrap gives a distribution that depends on the actual means we get and not the differences.

Key Point The empirical bootstrap and the percentile bootstrap will be different in that what they call the empirical bootstrap will be the interval [x∗¯−δ.1,x∗¯−δ.9][x∗¯−δ.1,x∗¯−δ.9] whereas the percentile bootstrap will have the confidence interval [x∗¯−δ.9,x∗¯−δ.1][x∗¯−δ.9,x∗¯−δ.1]. Typically they shouldn’t be that different. I have my thoughts as to which I would prefer, but I am not the definitive source that OP requests. Thought experiment- should the two converge if the sample size increases. Notice that there are 210210 possible samples of size 10. Let’s not go nuts, but what about if we take 2000 samples- a size usually considered sufficient.

Hide set.seed(1234) # reproducible boot.2k = matrix(NA,10,2000) for( i in c(1:2000)){ boot.2k[,i] = sample(orig.boot,10,replace = T) } mu2k = sort(apply(boot.2k,2,mean)) Let’s look at mu2k

Hide summary(mu2k) mean(mu2k)-mu2k[200] mean(mu2k) - mu2k[1801] And the actual values-

Hide mu2k[200] mu2k[1801] So now what MIT calls the empirical bootstrap gives an 80% confidence interval of [,40.3 -1.87,40.3 +1.64] or [38.43,41.94] and the their bad percentile distribution gives [38.5,42]. This of course makes sense because the law of large numbers will say in this case that the distribution should converge to a normal distribution. Incidentally, this is discussed in Efron and Hastie. The first method they give for calculating the bootstrap interval is to use mu =/- 1.96 sd. As they point out, for large enough sample size this will work. They then give an example for which n=2000 is not large enough to get an approximately normal distribution of the data.

Conclusions Firstly, I want to state the principle I use to decide questions of naming. “It’s my party I can cry if I want to.” While originally enunciated by Petula Clark, I think it also applies naming structures. So with sincere deference to MIT, I think that Bradley Efron deserves to name the various bootstrapping methods as he wishes. What does he do ? I can find no mention in Efron of ‘empirical bootstrap’, just percentile. So I will humbly disagree with Rice, MIT, et al. I would also point out that by the law of large numbers, as used in the MIT lecture, empirical and percentile should converge to the same number. To my taste, percentile bootstrap is intuitive, justified, and what the inventor of bootstrap had in mind. I would add that I took the time to do this just for my own edification, not anything else. In particular, I didn’t write Efron, which probably is what OP should do. I am most willing to stand corrected.


3
"I think it's fair to say that he's a distinguished statistician." - Yes I would say that is fair !
Xavier Bourret Sicotte

I think what OP calls "empirical boostrap" is what Wikipedia calls "basic bootstrap" here en.wikipedia.org/wiki/…. It uses the same percentiles as the "percentile bootstrap", you are right, but kind of flips them around. Do Efron and Hastie include this into their 4 methods? How do they call it?
amoeba says Reinstate Monica

I tried to clarify this in the question based on what I read in the MIT notes. Let me know if anything is unclear (or if you have time to check the notes themselves, check my post for correctness).
Clarinetist

@Xavier one could make a case that my Efron statement was understatement.
aginensky

1
Your statement that "what they call the empirical bootstrap will be the interval [x¯δ.1,x¯δ.9]," where x¯ is the mean of bootstrap estimates, is incorrect in terms of the MIT page linked by the OP. The empirical/basic bootstrap examines the distribution of differences of bootstrap estimates from the original sample estimate, not the distribution of bootstrap estimates themselves. This leads to serious differences in CI if there is bias, as my answer explains. See this page for an example.
EdM

2

As already noted in earlier replies, the "empirical bootstrap" is called "basic bootstrap" in other sources (including the R function boot.ci), which is identical to the "percentile bootstrap" flipped at the point estimate. Venables and Ripley write ("Modern Applied Statstics with S", 4th ed., Springer, 2002, p. 136):

In asymmetric problems the basic and percentile intervals will differ considerably, and the basic intervals seem more rational.

Out of curiosity, I have done extensive MonteCarlo simulations with two asymetrically distributed estimators, and found -to my own surprise- exactly the opposite, i.e. that the percentile interval outperformed the basic interval in terms of coverage probability. Here are my results with the coverage probability for each sample size n estimated with one million different samples (taken from this Technical Report, p. 26f):

1) Mean of an asymmetric distribution with density f(x)=3x2 Coverage probability of different bootstrap interval for the mean of an asymmetric distribution In this case the classic confidence intervals ±t1α/2s2/n) and ±z1α/2s2/n) are given for comparison.

2) Maximum Likelihood Estimator for λ in the exponential distribution Coverage probability for different bootstrap intervals for an ML estimator In this case, two alternative confidence intervals are given for comparison: ±z1α/2 times the log-likelihood Hessian inverse, and ±z1α/2 times the Jackknife variance estimator.

In both use cases, the BCa bootstrap has the highest coverage probablity among the bootstrap methods, and the percentile bootstrap has higher coverage probability than the basic/empirical bootstrap.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.