Якщо пари прогнозованих відповідей були отримані з популяції випадковою вибіркою, безпечно використовувати схему case / random-x / ваша перша перестановка. Якщо провідники контролювались або експериментатор встановлював значення предикторів, ви можете розглянути можливість використання залишкової / на основі моделі / фіксованого x / вашої другої схеми перекомпонування.
Чим вони відрізняються? Вступ до завантажувальної програми з додатками в R Девісоном та Кууненом має обговорення, що стосується цього питання (див. С.9). Дивіться також код R у цьому додатку Джона Фокса , зокрема функціонує boot.huber на стор.5 для схеми випадкових x та boot.huber.fixed на с.10 для схеми з фіксованим x. Незважаючи на те, що в примітках до лекції Шалізі дві схеми застосовуються до різних наборів даних / проблем, додаток Фокса ілюструє, наскільки мало різниці можуть скласти дві схеми.
Коли можна очікувати, що вони забезпечать однакові результати? Одна ситуація полягає в тому, що модель регресії правильно вказана, наприклад, відсутня немодельована нелінійність і звичайні припущення щодо регресії (наприклад, помилки в iid, відсутність вибірок) виконуються. Див. Главу 21 книги Фокса (до якої вищезгаданий додаток із кодом R побічно належить), зокрема обговорення на сторінці 598 та вправу 21.3. під назвою "Випадкове протипоточне переутворення в регресії". Цитувати з книги
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.
Ви також дізнаєтесь із цього обговорення, чому завантажувальний засіб fix-x неявно передбачає, що функціональна форма моделі є правильною (навіть якщо припущення щодо форми розподілу помилок не зроблено).
Дивіться також слайд 12 цієї бесіди для Товариства актуарів в Ірландії Дерека Бейна. Він також містить ілюстрацію того, що слід вважати "однаковим результатом":
The approach of re-sampling cases to generate pseudo data is the more usual form of
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.
The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are
equivalent.