Чи можна обчислити середнє гармонійне відхилення?


12

Чи можна обчислити середнє гармонійне відхилення? Я розумію, що середнє арифметичне може бути обчислене середнє відхилення, але якщо ви маєте середнє гармонічне значення, то як обчислюєте стандартне відхилення чи CV?

Відповіді:


13

Середнє гармонічне значення випадкових змінних визначається якHX1,...,Xn

H=11ni=1n1Xi

Беручи моменти фракцій брудний бізнес, так що замість цього я хотів би працювати з . Тепер1/H

1H=1ni=1n1Xi
.

Теорема центральної межі Усіна ми одразу отримуємо це

n(H1EX11)N(0,VarX11)

якщо, звичайно, VarX11< і Xi це iid, оскільки ми просто працюємо з середнім арифметичним змінними Yi=Xi1 .

Тепер, використовуючи метод дельти для функції ми отримуємо цеg(x)=x1

n(H(EX11)1)N(0,VarX11(EX11)4)

Цей результат є асимптотичним, але для простих застосувань це може бути достатньо.

Оновлення Як справедливо зазначає @whuber, прості програми - це неправильне значення. Центральна гранична теорема виконується лише за наявності , що є досить обмежувальним припущенням.VarX11

Оновлення 2 Якщо у вас є вибірка, то для обчислення стандартного відхилення просто підключіть моменти вибірки до формули. Отже, для зразка оцінка гармонічного середнього становитьX1,...,Xn

H^=11ni=1n1Xi

моменти вибірки і відповідно:EX11Var(X11)

μ^R=1ni=1n1Xiσ^R2=1ni=1n(1XiμR)2

тут означає зворотну.R

Нарешті, приблизна формула для стандартного відхилення єH^

sd(H^)=σ^R2nμ^R4

Я провів кілька моделей Монте-Карло для випадкових змінних, рівномірно розподілених в інтервалі . Ось код:[2,3]

hm <- function(x)1/mean(1/x)
sdhm <- function(x)sqrt((mean(1/x))^(-4)*var(1/x)/length(x))

n<-1000

nn <- c(10,30,50,100,500,1000,5000,10000)

N<-1000

mc<-foreach(n=nn,.combine=rbind) %do% {

    rr <- matrix(runif(n*N,min=2,max=3),nrow=N)

    c(n,mean(apply(rr,1,sdhm)),sd(apply(rr,1,sdhm)),sd(apply(rr,1,hm)))

}
colnames(mc) <- c("n","DeltaSD","sdDeltaSD","trueSD")

> mc
             n     DeltaSD    sdDeltaSD      trueSD
result.1    10 0.089879211 1.528423e-02 0.091677622
result.2    30 0.052870477 4.629262e-03 0.051738941
result.3    50 0.040915607 2.705137e-03 0.040257673
result.4   100 0.029017031 1.407511e-03 0.028284458
result.5   500 0.012959582 2.750145e-04 0.013200580
result.6  1000 0.009139193 1.357630e-04 0.009115592
result.7  5000 0.004094048 2.685633e-05 0.004070593
result.8 10000 0.002894254 1.339128e-05 0.002964259

Я імітував Nзразки за nрозміром вибірки. Для кожного nзразка розміру я розраховував оцінку стандартної оцінки (функції sdhm). Потім я порівнюю середнє та стандартне відхилення цих оцінок із стандартним відхиленням вибірки середнього гармонічного значення, оціненим для кожного зразка, яке, мабуть, має бути справжнім стандартним відхиленням середнього гармонічного значення.

Як бачите, результати досить хороші навіть для помірних розмірів вибірки. Звичайно, рівномірний розподіл дуже добре поводиться, тому не дивно, що результати хороші. Я залишу для когось іншого дослідити поведінку для інших дистрибутивів, код дуже легко адаптувати.

Примітка. У попередній версії цієї відповіді в результаті дельта-методу сталася помилка, неправильна дисперсія.


2
@mpiktas Це хороший початок і дає певні вказівки, коли резюме низьке. Але навіть у практичних, простих ситуаціях не зрозуміло, що застосовується CLT. Я б очікував, що зворотні зміни багатьох змінних не матимуть кінцевого другого або навіть першого моменту, коли є якась помітна ймовірність, що їх значення можуть бути близькими до нуля. Я також очікував, що метод дельти не застосовуватиметься через потенційно великі похідні зворотної близько нуля. Таким чином, це може допомогти точніше охарактеризувати "прості програми", де може працювати ваш метод. До речі, що таке "D"?
whuber

@whuber, D - для дисперсії, . Під простими програмами я мав на увазі ті, для яких існує дисперсія та середнє значення. Як ви говорите для випадкових величин із помітною ймовірністю того, що їх значення можуть бути близькими до нуля, взаємна може навіть не мати середнього значення. Але тоді відповідь на оригінальне запитання - ні. Я припускав, що ОП запитав, чи можна обчислити стандартне відхилення, коли воно існує. Очевидно, це не так багато випадкових змінних. DX=E(XEX)2
mpiktas

@whuber, BTW з цікавості для мене досить стандартне позначення, але можна сказати, що я родом з російської школи ймовірностей. Це не так часто зустрічається на "капіталістичному Заході"? :)DX
mpiktas

@mpiktas Я ніколи не бачив цієї позначення для варіації. Моя перша реакція полягала в тому, що - диференціальний оператор! Стандартні позначення є мнемонічними, такі як . DVar[X]
whuber

1
Документ "Перевернені розподіли" Е. Л. Леманна та Джульєтти Поппер Шаффер є цікавим прочитанням щодо розподілів перевернутих випадкових величин.
emakalic

2

У моїй відповіді на відповідне запитання вказується, що середнє значення гармонії набору позитивних даних - це оцінка найменших зважених квадратів (WLS) (з вагою ). Тому ви можете обчислити його стандартну помилку за допомогою методів WLS. Це має деякі переваги, включаючи простоту, загальність та інтерпретацію, а також автоматично виробляється будь-яким статистичним програмним забезпеченням, яке дозволяє зважувати при його обчисленні регресії.xi1/xi

Основний недолік полягає в тому, що обчислення не створює хороших інтервалів довіри для сильно перекошених базових розподілів. Можливо, це буде проблемою з будь-яким методом загального призначення: гармонічне значення чутливе до наявності навіть одного крихітного значення в наборі даних.

Для ілюстрації тут наводяться емпіричні розподіли незалежно генерованих зразків розміром від розподілу Гамма (5) (який скромно перекошений). Сині лінії показують справжнє гармонічне середнє значення (дорівнює ), а червоні пунктирні - найменше зважених оцінок квадратів. Вертикальні сірі смуги навколо синіх ліній є приблизними двосторонніми 95% довірчими інтервалами для гармонійного середнього. У цьому випадку в усіх зразках ІС охоплює справжню гармонічну середню. Повторення цього моделювання (із випадковими насінням) дозволяють припустити, що покриття близьке до запланованої 95%, навіть для цих невеликих наборів даних.20n=12420

Цифри

Ось Rкод для моделювання та цифри.

k <- 5             # Gamma parameter
n <- 12            # Sample size
hm <- k-1          # True harmonic mean
set.seed(17)

t.crit <- -qt(0.05/2, n-1)
par(mfrow=c(4, 5))
for(i in 1:20) {
  #
  # Generate a random sample.
  #
  x <- rgamma(n, k)
  #
  # Estimate the harmonic mean.
  #
  fit <- lm(x ~ 1, weights=1/x)
  beta <- coef(summary(fit))[1, ]
  message("Harmonic mean estimate is ", signif(beta["Estimate"], 3), 
          " +/- ", signif(beta["Std. Error"], 3))
  #
  # Plot the results.
  #
  covers <- abs(beta["Estimate"] - hm) <= t.crit*beta["Std. Error"]
  plot(ecdf(x), main="Empirical CDF", sub=ifelse(covers, "", "***"))
  rect(beta["Estimate"] - t.crit*beta["Std. Error"], 0, 
       beta["Estimate"] + t.crit*beta["Std. Error"], 1.25, 
       border=NA, col=gray(0.5, alpha=0.10))
  abline(v = hm, col="Blue", lwd=2)
  abline(v = beta["Estimate"], col="Red", lty=3, lwd=2)
}

1

Ось приклад для експонентних r.v's.

Середнє гармонічне значення для точок даних визначається якn

S=11ni=1nXi

Припустимо, у вас є iid зразків Експоненціальної випадкової величини, . Сума експоненціальних змінних слід за розподілом GammanXiExp(λ)n

i=1nXiGamma(n,θ)

де . Ми також це знаємоθ=1λ

1nGamma(n,θ)Gamma(n,θn)

Отже, розподіл єS

SInvGamma(n,nθ)

Дисперсія (і стандартне відхилення) цього rv добре відома, дивіться, наприклад, тут .


3
ваше визначення гармонійного середнього не погоджується з wikipedia
mpiktas

Використання експонентів - хороший підхід до розуміння проблеми.
whuber

1
Вся надія не зовсім втрачена. Якщо Xi ~ Exp (\ лямбда), то Xi ~ Gamma (1, \ lambda), так 1 / Xi ~ InvGamma (1, 1 / \ лямбда). Потім використовуйте "В. Вітковський (2001). Обчисливши розподіл лінійної комбінації перевернутих змінних гамма, Kybernetika 37 (1), 79-90", і подивіться, як далеко ви дістанетесь!
тристан

0

Існує побоювання , що mpiktas CLT вимагає ігрового обмежену дисперсії на . Це правда, що має шалені хвости, коли має позитивну щільність навколо нуля. Однак у багатьох програмах, що використовують середнє гармонічне значення, . Тут обмежений , що дає вам всі моменти, які ви хочете!1 / X X X 1 1 / X 11/X1/XXX11/X1


0

Я б запропонував використовувати наступну формулу як заміну стандартного відхилення:

σ=Ni=1N(1x^1xi)2,

де . Приємно в цій формулі те, що вона зведена до мінімуму, коли , і вона має ті самі одиниці, що і стандартне відхилення (які є ті самі одиниці, що і ). х=Нx^=N1xix^=N1xix

Це аналогічно стандартному відхиленню - це значення, яке приймає коли воно мінімізоване над . Він зведений до мінімуму, коли є середнім: .ххх=μ=11N(x^xi)2x^x^x^=μ=1Nxi

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.