Обчислення стандартної похибки в оцінці середньозваженого значення


16

Припустимо , що w1,w2,,wn і x1,x2,...,xn кожен звертається IID від деяких розподілів, з wi НЕ залежить від xi . wi строго позитивні. Ви спостерігаєте всі wi , але не xi ; швидше ви спостерігаєте ixiwi . Мені цікаво оцінити E[x] з цієї інформації. Очевидно оцінювач є неупередженим, і його можна обчислити за наявної інформації.

x¯=iwixiiwi

Як я можу обчислити стандартну помилку цього оцінювача? У випадку, коли приймає лише значення 0 і 1, я наївно намагався s e xi основному ігноруючи мінливість вwi, але виявив, що це погано для розмірів вибірки, менших приблизно від 250. (І це, мабуть, залежить від дисперсіїwi.). Здається, що, можливо, я не має достатньо інформації, щоб обчислити «кращу» стандартну помилку.

sex¯(1x¯)iwi2iwi,
wiwi

Відповіді:


17

Нещодавно я зіткнувся з тим же питанням. Далі я знайшов:

На відміну від простої випадкової вибірки з рівними вагами, немає широко прийнятого визначення стандартної похибки зваженого середнього. У ці дні було б прямо зараз зробити завантажувальну програму та отримати емпіричний розподіл середнього значення, і виходячи з цієї оцінки стандартної помилки.

Що робити, якщо хтось хотів використати формулу для цієї оцінки?

Основним посиланням є цей документ Дональда Ф. Гатца та Лютера Сміта, де 3 оцінювачі на основі формули порівнюються з результатами завантаження. Найкраще наближення до результату завантаження приходить від Cochran (1977):

(SEMw)2=n(n1)(Pi)2[(PiXiP¯X¯w)22X¯w(PiP¯)(PiXiP¯X¯w)+X¯w2(PiP¯)2]

Далі - відповідний R-код, що надійшов із цього потоку R listserve .

weighted.var.se <- function(x, w, na.rm=FALSE)
#  Computes the variance of a weighted mean following Cochran 1977 definition
{
  if (na.rm) { w <- w[i <- !is.na(x)]; x <- x[i] }
  n = length(w)
  xWbar = weighted.mean(x,w,na.rm=na.rm)
  wbar = mean(w)
  out = n/((n-1)*sum(w)^2)*(sum((w*x-wbar*xWbar)^2)-2*xWbar*sum((w-wbar)*(w*x-wbar*xWbar))+xWbar^2*sum((w-wbar)^2))
  return(out)
}

Сподіваюся, це допомагає!


Це досить круто, але для моєї проблеми я навіть не спостерігаю , швидше спостерігаю суму i P i X i . Моє запитання дуже дивне, оскільки воно передбачає деяку інформаційну асиметрію (третя сторона повідомляє про суму та намагається приховати якусь інформацію). PiXiiPiXi
shabbychef

шiн

@Ming-ChihKao this cochran formula is interesting but if you build a confidence interval off this when the data is not normal there is no consistent interpretation correct? How would you handle non-normal weighted average mean confidence intervals? Weighted quantiles?
user3022875

Я думаю, що з функцією є помилка. Якщо ви підставляєте w=rep(1, length(x)), то weighted.var.se(rnorm(50), rep(1, 50))про 0.014. Я думаю, що формулі відсутня а sum(w^2)в чисельнику, оскільки коли P=1, дисперсія є 1/(n*(n-1)) * sum((x-xbar)^2). Я не можу перевірити цитовану статтю, оскільки вона стоїть за платною стіною, але я думаю, що це виправлення. Як не дивно, рішення Вікіпедії (інше) стає виродженим, коли всі ваги рівні: en.wikipedia.org/wiki/… .
Макс Кандоція

Вони можуть працювати краще взагалі: analyticalgroup.com/download/WEIGHTED_MEAN.pdf
Макс Candocia

5

Варіантність вашої оцінки з урахуванням шi є

шi2Vаr(Х)(шi)2=Vаr(Х)шi2(шi)2.
Тому що ваша оцінка є неупередженою для будь-якої шi, дисперсія його умовного середнього дорівнює нулю. Отже, дисперсія вашої оцінки
Vаr(Х)Е(шi2(шi)2)
Зважаючи на всі спостережувані дані, це було б легко емпірично оцінити. Але лише мірою розташуванняХi спостерігається, а не їх поширення, я не бачу, як можна буде отримати оцінку Vаr(Х), не роблячи досить серйозних припущень.

принаймні у конкретному випадку, де хi have a Bernoulli distribution I can estimate the variance of x by x¯(1x¯) as noted above. Even in this case, as noted in the question, I need a larger sample size than I would have expected.
shabbychef
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.