Чи можна переустановку завантажувальної програми використовувати для обчислення довірчого інтервалу для дисперсії набору даних?


9

Я знаю, що якщо ви повторно відбираєте вибірку з набору даних багато разів і обчислюєте середнє значення кожного разу, ці засоби будуть послідувати нормальний розподіл (за CLT). Таким чином, ви можете обчислити довірчий інтервал на середньому наборі даних, не роблячи припущень щодо розподілу ймовірності набору даних.

Мені було цікаво, чи можете ви зробити щось подібне для дисперсії. Тобто, якби я повторно відбирав вибірку з набору даних і обчислював дисперсію кожен раз, чи будуть ці відхилення певним розподілом (незалежно від того, яким був початковий розподіл ймовірностей набору даних)?

Я знаю, що якщо цей оригінальний набір даних є нормальним, то відхилення слідують за розподілом чи-квадрата. Але як бути у випадку, якщо це не нормально?

Відповіді:


10

Чи можна використовувати Bootstrap Resampling для обчислення інтервалу довіри для зміни набору даних?

Так, як і у багатьох інших статистичних даних.

Я знаю, що якщо ви повторно відбираєте вибірку з набору даних багато разів і обчислюєте середнє значення кожного разу, ці засоби будуть послідувати нормальний розподіл (за CLT).

Не завжди буває так, що якщо ви завантажуєте середнє, засіб завантаження буде дотримуватися звичайного розподілу, навіть для дистрибутивів, до яких застосовується CLT.

Ось приклад, коли я перепробовував середнє значення для вибірки розміром , де я повторно впорядковував 10000 разів:n=100

введіть тут опис зображення

Це не віддалено нормально.

Оригінальний зразок складається з дев'яносто семи значень «0» та «1», «2» та «100».

Ось (R) код, який я запустив для створення сюжету вище:

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

Проблема полягає в тому, що в цьому випадку розмір вибірки (100) є занадто малим, щоб CLT застосував такий тип розподільної форми; не має значення, скільки разів ми повторно впорядковуємо його.

Однак, якщо вихідний розмір вибірки набагато більший, розподіл зразка для повторної вибірки означає, що щось подібне буде більш нормальним (хоча завжди дискретним).

Ось ecdfs при перекомпонуванні вищезазначених даних (чорні) та для значень у однакових пропорціях, але з десятьма разів більшими значеннями (червоні; тобто n = 1000):

введіть тут опис зображення

Як ми бачимо, функція розподілу при переустановці великого зразка виглядає набагато нормальніше.

якби я повторно відбирав вибірку з набору даних багато разів і обчислював дисперсію щоразу, чи були б ці відхилення певним розподілом

Ні, з тієї ж причини це не обов'язково стосується середнього значення.

Однак CLT також застосовується до дисперсії *; це просто те, що ви не можете стверджувати, що CLT застосовується до перекомпіляції завантажувальної програми, просто взявши багато повторних проб. Якщо вихідний розмір вибірки є достатньо великим, це може (за правильних умов) зробити розподіл засобів (і вищі моменти, якщо вони існують) розподілом засобів відносно близьким до нормального розподілу (щодо його розподілу в менших зразках, при мінімум).

* що CLT зазвичай застосовується до дисперсії (припускаючи, що існують відповідні моменти) є інтуїтивно зрозумілим, якщо врахувати . Нехай ; тоді , тому якщо CLT застосовується до змінної, він може бути застосований до . Тепер - це просто масштабована версія ; якщо CLT застосовується до він застосовуватиметься до . Однак цей аргумент аргументу не є цілком твердим, і є деякі винятки, яких спочатку ви можете не очікувати.sn2=1ni=1n(xix¯)2yi=(xix¯)2sn2=y¯yсн2сн-12сн2сн2сн-12

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.