Чи можна використовувати Bootstrap Resampling для обчислення інтервалу довіри для зміни набору даних?
Так, як і у багатьох інших статистичних даних.
Я знаю, що якщо ви повторно відбираєте вибірку з набору даних багато разів і обчислюєте середнє значення кожного разу, ці засоби будуть послідувати нормальний розподіл (за CLT).
Не завжди буває так, що якщо ви завантажуєте середнє, засіб завантаження буде дотримуватися звичайного розподілу, навіть для дистрибутивів, до яких застосовується CLT.
Ось приклад, коли я перепробовував середнє значення для вибірки розміром , де я повторно впорядковував 10000 разів:n = 100
Це не віддалено нормально.
Оригінальний зразок складається з дев'яносто семи значень «0» та «1», «2» та «100».
Ось (R) код, який я запустив для створення сюжету вище:
x <- c(rep(0,97),1,2,100)
y <- replicate(10000,mean(sample(x,replace=TRUE)))
plot(table(y),type="h")
Проблема полягає в тому, що в цьому випадку розмір вибірки (100) є занадто малим, щоб CLT застосував такий тип розподільної форми; не має значення, скільки разів ми повторно впорядковуємо його.
Однак, якщо вихідний розмір вибірки набагато більший, розподіл зразка для повторної вибірки означає, що щось подібне буде більш нормальним (хоча завжди дискретним).
Ось ecdfs при перекомпонуванні вищезазначених даних (чорні) та для значень у однакових пропорціях, але з десятьма разів більшими значеннями (червоні; тобто n = 1000):
Як ми бачимо, функція розподілу при переустановці великого зразка виглядає набагато нормальніше.
якби я повторно відбирав вибірку з набору даних багато разів і обчислював дисперсію щоразу, чи були б ці відхилення певним розподілом
Ні, з тієї ж причини це не обов'язково стосується середнього значення.
Однак CLT також застосовується до дисперсії *; це просто те, що ви не можете стверджувати, що CLT застосовується до перекомпіляції завантажувальної програми, просто взявши багато повторних проб. Якщо вихідний розмір вибірки є достатньо великим, це може (за правильних умов) зробити розподіл засобів (і вищі моменти, якщо вони існують) розподілом засобів відносно близьким до нормального розподілу (щодо його розподілу в менших зразках, при мінімум).
* що CLT зазвичай застосовується до дисперсії (припускаючи, що існують відповідні моменти) є інтуїтивно зрозумілим, якщо врахувати . Нехай ; тоді , тому якщо CLT застосовується до змінної, він може бути застосований до . Тепер - це просто масштабована версія ; якщо CLT застосовується до він застосовуватиметься до . Однак цей аргумент аргументу не є цілком твердим, і є деякі винятки, яких спочатку ви можете не очікувати.с2н=1н∑нi = 1(хi-х¯)2уi= (хi-х¯)2с2н=у¯ус2нс2n - 1с2нс2нс2n - 1