Для чого нам потрібна завантажувальна програма?


16

Зараз я читаю «Всю статистику» Ларрі Вассермана і спантеличений чимось, що він написав у главі про оцінку статистичних функцій непараметричних моделей.

Він написав

"Іноді ми можемо знайти розрахункову стандартну помилку статистичної функції, зробивши деякі обчислення. Однак в інших випадках не очевидно, як оцінити стандартну помилку".

Я хотів би зазначити, що в наступній главі він розповідає про завантажувальну програму для вирішення цього питання, але, оскільки я не дуже розумію це твердження, я не в повній мірі отримую стимул для Bootstrapping?

Який приклад є, коли не очевидно, як оцінити стандартну помилку?

Всі приклади , які я бачив до сих пір були «очевидно» , такі як X1,...Xn Ber(p) , то se^(p^n)=p^(1p^)/n


Відповіді:


16

Дві відповіді.

  1. Яка стандартна похибка співвідношення двох засобів? Яка стандартна помилка медіани? Яка стандартна помилка будь-якої складної статистики? Можливо, є рівняння закритої форми, але можливо, ще ніхто не розробив його.
  2. Для того, щоб використовувати формулу для (скажімо) стандартної похибки середнього значення, ми повинні зробити деякі припущення. Якщо ці припущення порушені, ми не можемо обов'язково використовувати метод. Як в коментарях зазначає @Whuber, завантажувальна програма дозволяє нам послабити деякі з цих припущень і, отже, може дати більш стандартні помилки (хоча це може також зробити додаткові припущення).

2
Відповідь 1 - це добре, але відповідь 2, здається, викликає питання, тому що завантажувальний процес також робить припущення. Я припускаю, що справа може полягати в тому, що вона зазвичай робить інші припущення, ніж інші популярні процедури, але це лише моя здогадка про те, що ви намагаєтесь сказати, і я можу помилитися.
whuber

@Whuber - дякую, я додав трохи уточнень.
Джеремі Майлз

5
Дякую за правки Але чи не так, що завантажувальне завантаження зазвичай робить різні припущення , а не насправді розслабляє ? Наприклад, припущення, необхідні для оцінки середнього показника вибірки, полягають у тому, що дані є ідентичними та базовий розподіл має кінцеву дисперсію. У цьому випадку фактично потрібно додавати припущення: він не працює, якщо розмір вибірки не є "достатньо великим". Хоча це може здатися хиткою щодо технічних можливостей, я намагаюся вирішити цю картину: велика картина: завантаження не є ні панацеєю, ні завжди застосовується.
whuber

3
@JeremyMiles завантажувальна програма не вільна від припущень. Вам потрібно переконатися, що розподіл є ключовим для більшості обчислень помилок завантажувальної програми, які часто можуть бути складнішими, ніж отримання послідовного оцінки стандартної помилки. Крім того, співвідношення засобів має дуже легке наближення помилок, отримане з δ-методу. Тож я не думаю, що цей приклад не піддається точці ОП.
AdamO

9

Приклад може допомогти проілюструвати. Припускаю, що в рамках причинного моделювання, ви зацікавлені у визначенні того , співвідношення між (викриттям інтересу) Y (результат інтересу) опосредуются змінної W . Це означає, що у двох моделях регресії:XYW

E[Y|X]=β0+β1XE[Y|X,W]=γ0+γ1X+γ2W

Ефект відрізняється від ефекту γ 1 .β1γ1

Як приклад, розглянемо взаємозв'язок між курінням та серцево-судинним (СС) ризиком. Куріння, очевидно, збільшує ризик розвитку CV (для таких випадків, як серцевий напад та інсульт), викликаючи тендітність та кальцифікацію вен. Однак куріння також пригнічує апетит. Тож нам було б цікаво, чи оцінюється взаємозв'язок між курінням та ризиком розвитку СІМ ІМТ, який незалежно є фактором ризику ризику СС. Тут може бути двійковою подією (інфаркт міокарда або неврологічний інфаркт) в логістичній регресійній моделі або безперервної змінною, як кальцинація коронарної артерії (CAC), фракція викиду лівого шлуночка (LVEF) або маса лівого шлуночка (LVM).Y

Ми би підходили до двох моделей 1: коригування куріння та результатів, а також інших супутників, таких як вік, стать, дохід та сімейний анамнез серцевих захворювань, а потім 2: всі попередні коваріати, а також індекс маси тіла. Різниця між ефектом куріння між моделями 1 і 2 полягає в тому, що ми базуємося на своєму висновку.

Нам цікаво перевірити гіпотези

H:β1=γ1K:β1γ1

Одним з можливих вимірювань ефекту може бути: або S = β 1 / γ 1 або будь-яка кількість вимірювань. Для T і S можна використовувати звичайні оцінки . Стандартну помилку цих оцінювачів вивести дуже складно. Однак завантаження розподілу їх є загальноприйнятою технікою, і легко вирахувати значення р- значення безпосередньо з цього.T=β1γ1S=β1/γ1TSp


TSTS

TS

γ2=0. I do not even know of a valid definition of "hypothesis" that involves two separate models.
whuber

@whuber Ah I see the confusion. Please see a recommended article from MacKinnon here.
AdamO

Thank you: that reference helps me understand your example much better. Although I have reservations about the many theoretical solecisms involved in that approach, they are irrelevant to the aptness of your example: it suffices that people have actually tried to understand data in this way and have seen a need to estimate standard errors for estimators of T or S. I notice, though, that your last paragraph still does not distinguish between T and its estimator: T is a model property and as such has no distribution and no SE. An estimator of T does have a distribution.
whuber

2

Having parametric solutions for each statistical measure would be desirable but, at the same time, quite unrealistic. Bootstrap comes in handy in those instances. The example that springs to my mind concerns the difference between two means of highly skewed cost distributions. In that case, the classic two-sample t-test fails to meet its theoretical requirements (the distributions from which the samples under investigation were drawn surely depart from normality, due to their long right-tail) and non-parametric tests lack to convey useful infromation to decision-makers (who are usually not interested in ranks). A possible solution to avoid being stalled on that issue is a two-sample bootstrap t-test.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.