Корекція зміщення у зваженій дисперсії


22

Для незваженої дисперсії існує дисперсія виправленої вибірки з ухилом, коли середнє значення оцінюється з одних і тих же даних:

Вар(Х): =1нi(хi-мк)2
Вар(Х): =1н-1i(хi-Е[Х])2

Я вивчаю середньозважену середню величину та дисперсію, і цікавлюсь, що є відповідною корекцією зміщення зваженої дисперсії. Використання:

маю на увазі(Х): =1iωiiωiхi

"Наївна" некоригована дисперсія, яку я використовую, така:

Вар(Х): =1iωiiωi(хi-маю на увазі(Х))2

Тож мені цікаво, чи правильний спосіб виправлення зміщення

A)

Вар(Х): =1iωi-1iωi(хi-маю на увазі(Х))2

або B)

Вар(Х): =нн-11iωiiωi(хi-маю на увазі(Х))2

або C)

Вар(Х): =iωi(iωi)2-iωi2iωi(хi-маю на увазі(Х))2

А) для мене немає сенсу, коли ваги невеликі. Значення нормалізації може бути 0 або навіть негативним. Але як щодо B) ( н - кількість спостережень) - це правильний підхід? Чи є у вас якась довідка, яка це свідчить? Я вірю "Оновлення середніх і дисперсійних оцінок: удосконалений метод", DHD West, 1979 використовує це. Третє, С) - це моя інтерпретація відповіді на це запитання: /mathpro/22203/unbiased-estimate-of-the-variance-of-an-unnormalised-weighted-mean

Для C) Я щойно зрозумів, що знаменник дуже схожий на Вар(Ω) . Чи є тут якийсь загальний зв’язок? Я думаю, що це не повністю вирівнюється; і, очевидно, є зв'язок, який ми намагаємося обчислити дисперсію ...

Усі троє, схоже, "пережили" перевірку на обґрунтованість встановлення всіх \ omega_i = 1ωi=1 . Отже, яким я повинен користуватися, під якими приміщеннями? '' Оновлення: '' whuber запропонував також зробити перевірку правильності з ω1=ω2=.5 та всіма залишилися ωi=ϵ крихітними. Це, здається, виключає A і B.


Якщо розглядати випадки, коли дві найбільші ваги рівні, а всі інші стають марно малі, обидва (A) та (B) відпадають від суперечки (оскільки вони не згодні з відомими результатами при ). (C) представляється наближенням; Я підозрюю, що правильний фактор є набагато складнішою функцією ваг. н=2
whuber

@whuber ThePawn нижче говорить про те, що це C. Чи є у вас більш детальні проблеми?
Аноні-Мус

1
Рішення (A) працює, я його реалізував у минулому і можу підтвердити за допомогою емпіричних тестів, що він дає правильні результати. Однак ви повинні використовувати лише цілі значення для ваг і> 0.
габоровий

Спасибі! Це мені дуже допомогло стати на правильному шляху, коли ваги для експоненціальної ковзної середньої! Виявляється, наївний спосіб обчислення дисперсії насправді завищує її постійним коефіцієнтом 2, на додаток до невеликої корекції (1-1 / n), яка виявляється аналогічно простому підрахунку ковзної середньої. Це особливо божевільний особливий випадок!
saolof

Відповіді:


10

Я пройшов математику і закінчив варіант С:

Vаr(Х)=(iωi)2(iωi)2-iωi2V¯
де - невідкоригована оцінка дисперсії. Формула відповідає узгодженому випадку, коли всі однакові. Я детально доказую нижче:V¯ωi

Встановлюючи , ми маємоλi=ωiiωi

V¯=iλi(хi-jλjхj)2

Розширення внутрішнього терміна дає:

(хi-jλjхj)2=хi2+j,кλjλкхjхк-2jλjхiхj

Якщо ми беремо очікування, ми маємо, що , термін присутній у кожному терміні, він скасовується і ми отримати:Е[хiхj]=Vаr(Х)1i=j+Е[Х]2Е[Х]

E [ ¯ V ] = V a r ( X ) ( 1 - j λ 2 j ) λ i ω i

Е[V¯]=Vаr(Х)iλi(1+jλj2-2λi)
, тобто Залишається підключити вираз щодо щоб отримати варіант C.
Е[V¯]=Vаr(Х)(1-jλj2)
λiωi

Це варіант C вище, чи не так?
Аноні-Мус

На жаль, це варіант C.
Пола

Я перевірив це рішення емпірично, і воно НЕ працює ... Єдине, що це - це рішення (A), яке я також раніше реалізував, але він працює лише з вагами, цілими числами і> = 0
робочими

2
Це рівняння є неправильним згідно Вікіпедії, Матлаба, Р та інших, які реалізують це рівняння. Чисельник тут розміщений у квадраті, але він НЕ повинен бути, він повинен бути таким же, як (С), запропонований ОП. Дивіться en.wikipedia.org/wiki/…
робочий

1
@rajatkhanduja Я говорив не про доказ, а про остаточне отримане рівняння (перше в цій відповіді). Але насправді це правильно, чисельник просто в квадраті, тому що ми множимо на V, таким чином чисельник закінчується неквадратичним. У будь-якому випадку, цей оцінювач залишається упередженим, як я пояснюю у своїй відповіді нижче, оскільки він покладається на ваги типу "надійності".
габоровий

7

І A, і C є правильними, але який з них ви будете використовувати, залежить від того, яку вагу ви використовуєте:

  • Вам потрібно використовувати ваги типу "повтор" (цілі числа, що рахують кількість випадків для кожного спостереження), і є неупередженим .
  • C потрібно використовувати ваги типу "надійності" (або нормалізовані ваги, або будь-які відхилення для кожного спостереження), і це упереджено . Це не може бути неупередженим.

Причина, через яку C є обов'язково упередженою, полягає в тому, що якщо ви не використовуєте ваги типу "повтор", ви втрачаєте можливість підрахувати загальну кількість спостережень (розмір вибірки), і таким чином ви не можете використовувати коефіцієнт корекції.

Для отримання додаткової інформації перегляньте нещодавно оновлену статтю Вікіпедії: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.