Чому дисперсія вибірки змінюється, якщо спостереження дублюються?


25

Дисперсія, як кажуть, є мірою поширення. Отже, я думав, що дисперсія 3,5дорівнює дисперсії, 3,3,5,5оскільки числа однаково поширюються. Але це не так, дисперсія 3,5є, 2поки дисперсія 3,3,5,5є 1 1/3.

Це спантеличує мене, враховуючи пояснення, що дисперсія повинна бути мірою поширення.

Отже, в цьому контексті, що означає міра поширення ?

Відповіді:


32

Якщо ви визначите дисперсію як - аналогічно дисперсії сукупності але якщо середнє значення вибірки для , то обидва ваші зразки мали б однакову дисперсію.сн2=MSE=1нi=1н(хi-х¯)2мк

Отже, різниця полягає лише в корекції Бесселя у звичайній формулі для вибіркової дисперсії ( , який коригує той факт, що середнє значення вибірки ближче до даних, ніж означає сукупність, щоб зробити його неупередженим (приймаючи правильне значення "в середньому").сн-12=нн-1MSE=нн-11нi=1н(хi-х¯)2=1н-1i=1н(хi-х¯)2

Ефект поступово зникає зі збільшенням розміру вибірки, оскільки переходить до 1 як .н-1нн

Немає жодної конкретної причини, якщо вам доводиться використовувати неупереджений оцінювач для варіації, до речі - - цілком дійсний оцінювач, і в деяких випадках, можливо, може мати переваги перед більш поширеною формою (неупередженість не обов'язково така велика угода).сн2

Варіантність сама по собі не є безпосередньо показником поширення. Якщо я подвоїв усі значення в наборі даних, я стверджую, що вони вдвічі перевищують "спред". Але дисперсія збільшується в 4 рази. Тому частіше говорять, що стандартне відхилення, а не дисперсія - це міра поширення.

Звичайно, таке ж питання виникає і зі стандартним відхиленням (звичайна версія ), як і з дисперсією - при подвоєнні балів змінюється стандартне відхилення з тієї ж причини, що і з дисперсією.сн-1

У невеликих зразках корекція Бесселя робить стандартне відхилення дещо менш інтуїтивним, як міру поширення через цей ефект (що дублювання вибірки змінює значення). Але багато заходів розповсюдження зберігають однакове значення при дублюванні вибірки; Я згадаю кілька -

  • сн (звичайно)

  • середнє (абсолютне) відхилення від середнього

  • середнє (абсолютне) відхилення від медіани

  • міжквартильний діапазон (принаймні, для деяких визначень зразкових квартілів)


3
"Немає жодної конкретної причини, коли ви повинні використовувати неупереджений оцінювач" - дійсно, вам не слід нічого оцінювати . Дисперсія {3, 5}сама по собі по 1-й формулі. Як ви зазначаєте, запитуючий намагався оцінити дисперсію сукупності, з якої це вважається вибіркою, але хто знає, чи це так, чи ні.
Стів Джессоп

1

В якій - то мнемонічному, . Таким чином, очікуване значення дисперсії вибірки є занадто низьким, різниця - дисперсія середньої вибірки.VХ=ЕVХ+VЕХ

Звичайна формула дисперсії вибірки компенсує це, а дисперсія середньої шкали вибірки обернено обернено розміром.

Як крайній приклад, взяття одного зразка завжди буде показувати дисперсію вибірки 0, очевидно, не вказуючи на дисперсію 0 для базового розподілу.

Зараз для 2 та 4 рівномірно зважених зразків коригуючі коефіцієнти становлять відповідно та . Тож ваші розраховані очікувані відхилення відрізняються на коефіцієнт . Варіантність самої вибірки в будь-якому випадку дорівнює . Але перший випадок представляє слабший випадок для який є середнім базовим розподілом, і кожне інше значення означатиме більшу дисперсію.2/14/32/314


2
Поєднуючи оцінювачів зі статистикою , ця відповідь плутає, а не уточнює, питання. Прочитайте оригінальну відповідь Glen_b у цій темі. Аргумент у перших двох абзацах загадковий, оскільки це, здається, не має значення для питання.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.