Два способи використання завантажувальної програми для оцінки інтервалу довіри коефіцієнтів у регресії

Я застосовую лінійну модель до своїх даних:

у_{i} = β_{0} + β_{1} х_{i} + ϵ_{i}, ϵ_{i} \sim N (0, σ^{2}) .

$y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}).$

Я хотів би оцінити довірчий інтервал (CI) коефіцієнтів ( , ), використовуючи метод завантаження. Існує два способи застосувати метод завантаження: $\beta_{0}$ $\beta_{1}$

Зразок парного передбачувача відповідей: Випадково перепробовуйте пари і застосовуйте лінійну регресію до кожного запуску. Після закінчення ми отримуємо сукупність оцінених коефіцієнтів . Нарешті, обчисліть . $y_{i}-x_{i}$ $m$ ${\hat{\beta_{j}}}, j=1,...m$ ${\hat{\beta_{j}}}$
Помилка вибірки: спочатку застосуйте лінійну регресію до вихідних спостережуваних даних, з цієї моделі отримуємо та помилку . Після цього довільно перепродайте помилку і обчисліть нові дані за допомогою і . Знову застосуйте лінійну регресію. Після закінчення ми отримуємо колекцію оцінених коефіцієнтів . Нарешті, обчисліть . $\hat{\beta_{o}}$ $\epsilon_{i}$ $\epsilon^{*}_{i}$ $\hat{\beta_{o}}$ $y^{*}_{i}=\hat{\beta_{o}}x_{i}+\epsilon^{*}_{i}$ $m$ ${\hat{\beta_{j}}}, j=1,...,m$ ${\hat{\beta_{j}}}$

Мої запитання:

Чим ці два методи відрізняються?
За яким припущенням ці два методи дають однаковий результат?

regression bootstrap

— тянтіанхен
джерело

Я особисто не використовував би як підхід за замовчуванням, але натомість рекомендував би базовий інтервал довіри завантаження. Див. С. 8 www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. Я робив багато симуляцій для двійкової логістичної моделі і бачив краще охоплення інтервалу довіри за допомогою базового завантажувального інструменту, ніж використання завантажувального перцентиля або BCa.

— Френк Харрелл

@FrankHarrell, щоб бути зрозумілим, "базовим" ви маєте на увазі непараметричний завантажувальний засіб?

— ndoogan

(1) - перцентильний завантажувальний непарламетричний інтервал завантаження, а не основний завантажувальний інтервал. Зауважимо, що вибірка з

- це безумовна завантажувальна програма, яка більше не передбачає припущення, ніж умовна завантажувальна програма, яка перепробовує залишки.

(x, y)

$(x,y)$

— Френк Харрелл

Я насправді не фахівець, але, наскільки я це розумію, 1) часто називають "рециркуляцією випадків", тоді як 2) називають "залишковим перекомпонуванням" або "фіксованим

" перекомпонування. Основний вибір методу не означає метод розрахунку довірчих інтервалів після процедури. Цю інформацію я отримав переважно з підручника Джона Фокса . Наскільки я бачу, після будь-якої завантажувальної програми ви могли обчислити основні CI завантажувальної програми (наприклад, з in ). Або я щось тут сумую?

x

$x$ boot.ci(my.boot, type="basic")R

— COOLSerdash

Так, ви можете зробити кластерне завантаження. Це реалізовано в R rms validateта calibrateфункціях.

— Френк Харрелл

Якщо пари прогнозованих відповідей були отримані з популяції випадковою вибіркою, безпечно використовувати схему case / random-x / ваша перша перестановка. Якщо провідники контролювались або експериментатор встановлював значення предикторів, ви можете розглянути можливість використання залишкової / на основі моделі / фіксованого x / вашої другої схеми перекомпонування.

Чим вони відрізняються? Вступ до завантажувальної програми з додатками в R Девісоном та Кууненом має обговорення, що стосується цього питання (див. С.9). Дивіться також код R у цьому додатку Джона Фокса , зокрема функціонує boot.huber на стор.5 для схеми випадкових x та boot.huber.fixed на с.10 для схеми з фіксованим x. Незважаючи на те, що в примітках до лекції Шалізі дві схеми застосовуються до різних наборів даних / проблем, додаток Фокса ілюструє, наскільки мало різниці можуть скласти дві схеми.

Коли можна очікувати, що вони забезпечать однакові результати? Одна ситуація полягає в тому, що модель регресії правильно вказана, наприклад, відсутня немодельована нелінійність і звичайні припущення щодо регресії (наприклад, помилки в iid, відсутність вибірок) виконуються. Див. Главу 21 книги Фокса (до якої вищезгаданий додаток із кодом R побічно належить), зокрема обговорення на сторінці 598 та вправу 21.3. під назвою "Випадкове протипоточне переутворення в регресії". Цитувати з книги

By randomly reattaching resampled residuals to ﬁtted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reﬂected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

Ви також дізнаєтесь із цього обговорення, чому завантажувальний засіб fix-x неявно передбачає, що функціональна форма моделі є правильною (навіть якщо припущення щодо форми розподілу помилок не зроблено).

Дивіться також слайд 12 цієї бесіди для Товариства актуарів в Ірландії Дерека Бейна. Він також містить ілюстрацію того, що слід вважати "однаковим результатом":

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.

— Зимує
джерело