Як обчислити об'єднану дисперсію двох або більше груп із заданими відомими груповими дисперсіями, засобами та розмірами вибірки?


32

Скажімо, є елементів, розділених на дві групи (m+nm іn ). Дисперсія першої групиσm2 а дисперсія другої групи -σn2 . Вважається, що самі елементи невідомі, але я знаю засобиμm іμn .

Чи є спосіб обчислити комбіновану дисперсію σ(m+n)2 ?

Дисперсія не повинна бути об'єктивною, тому знаменник (m+n) а не (m+n1) .


Коли ви говорите, що знаєте засоби та відхилення цих груп, це їх параметри чи вибіркові значення? Якщо вони є зразковими засобами / дисперсіями, ви не повинні використовувати μ і σ ...
Джонатан Крістенсен

Я просто використовував символи як уявлення. Інакше було б важко пояснити мою проблему.
user1809989

1
Для вибіркових значень ми зазвичай використовуємо латинські літери (наприклад, і s ). Грецькі літери зазвичай зарезервовані для параметрів. Використання "правильних" (очікуваних) символів допоможе вам чіткіше спілкуватися. ms
Джонатан Крістенсен

Не хвилюйтесь, я буду дотримуватися цього відтепер! Ура
користувач1809989

1
@ Джонатхан Оскільки це не питання про вибірки чи оцінку, можна законно вважати, що і σ 2 - це справжня середня величина та дисперсія емпіричного розподілу партії даних, тим самим виправдовуючи звичайне використання грецьких букв, а не латинські літери для посилання на них. μσ2
whuber

Відповіді:


36

Використовуйте визначення середнього значення

μ1:n=1ni=1nxi

і вибіркова дисперсія

σ1:n2=1ni=1n(xiμ1:n)2=n1n(1n1i=1n(xiμ1:n)2)

(останній член у дужках - це об'єктивний оцінювач дисперсії, який часто обчислюється за замовчуванням у статистичному програмному забезпеченні) для пошуку суми квадратів усіх даних . Впорядкуємо індекси i так, що i = 1 , , n позначає елементи першої групи, а i = n + 1 , , n + m позначає елементи другої групи. Розбийте цю суму квадратів на групу і повторно висловіть дві частини у вигляді дисперсій та засобів підмножини даних:xiii=1,,ni=n+1,,n+m

(m+n)(σ1:m+n2+μ1:m+n2)=i=11:n+mxi2=i=1nxi2+i=n+1n+mxi2=n(σ1:n2+μ1:n2)+m(σ1+n:m+n2+μ1+n:m+n2).

Алгебраїчно розв'язуючи це для у відношенні інших (відомих) величин виходівσm+n2

σ1:m+n2=n(σ1:n2+μ1:n2)+m(σ1+n:m+n2+μ1+n:m+n2)m+nμ1:m+n2.

Звичайно, використовуючи той самий підхід, може бути виражено через групові засоби.μ1:m+n=(nμ1:n+mμ1+n:m+n)/(m+n)


Анонімний дописувач вказує, що коли вибіркові засоби рівні (так що ), рішення для σ 2 m + n є середньозваженим значенням відхилення вибірки групи.μ1:n=μ1+n:m+n=μ1:m+nσm+n2


4
Тег "домашнє завдання" не означає, що питання є елементарним або нерозумним: він використовується для питань самостійного вивчення, які можуть включати навіть запити на рівні досліджень. Він відрізняє рутинні, більш-менш без контекстні запитання (такого роду, як правило, це може сприяти форуму з математики) від конкретних прикладних питань.
whuber

n(σ2+μ2)=(xμ)2+nμ2=?x2[(xμ)2+μ2]=[x22xμ]μ=0 Am I missing something? Could you please explain this?
DarioP

2
@Dario
(xμ)2+nμ2=(x22μx+nμ2)+nμ2=x22nμ2+2nμ2=x2.
whuber

Oh yes, I did a stupid sign mistake in my derivation, now is clear, thanks!!
DarioP

4
I guess this can be extended to an arbitrary number of samples as long as you have the mean and variance for each. Calculating pooled (biased) standard deviation in R is simply sqrt(weighted.mean(u^2 + rho^2, n) - weighted.mean(u, n)^2) where n, u and rho are equal-length vectors. E.g. n=c(10, 14, 9) for three samples.
Jonas Lindeløv

3

I'm going to use standard notation for sample means and sample variances in this answer, rather than the notation used in the question. Using standard notation, another formula for the pooled sample variance of two groups can be found in O'Neill (2014) (Result 1):

spooled2=1n1+n21[(n11)s12+(n21)s22+n1n2n1+n2(x¯1x¯2)2].

This formula works directly with the underlying sample means and sample variances of the two subgroups, and does not require intermediate calculation of the pooled sample mean. (Proof of result in linked paper.)


-3

Так, з огляду на середнє значення, кількість вибірки та дисперсію або стандартне відхилення кожної з двох або більше груп проб, можна точно розрахувати дисперсію або стандартне відхилення комбінованої групи.

На цій веб-сторінці описано, як це зробити, і чому це працює; він також включає вихідний код на Perl: http://www.burtonsys.com/climate/composite_standard_deviations.html


До речі, всупереч наведеній вище відповіді,

н(σ2+мк2)    i=1нхi2

Побачте самі, наприклад, в R:

> x = rnorm (10,5,2)
> х
 [1] 6.515139 8.273285 2.879483 3.624233 6.199610 3.683164 4.921028 8.084591
 [9] 2.974520 6.049962
> середній (x)
[1] 5.320502
> sd (x)
[1] 2.007519
> сума (х ** 2)
[1] 319.3486
> 10 * (середнє значення (x) ** 2 + sd (x) ** 2)
[1] 323,3787

it's because you forgot the n-1 factor, e.g. try with n*(mean(x)**2+sd(x)**2/(n)*(n-1))
user603

user603, what on earth are you talking about?
Дейв Бертон

3
Дейв, математика - більш надійний викладач, ніж програмне забезпечення. У цьому випадку Rобчислюється неупереджена оцінка стандартного відхилення, а не стандартне відхилення множини чисел. Наприклад, sd(c(-1,1))повернення, 1.414214а не 1. Ваш приклад потрібно використовувати sqrt(9/10)*sd(x)замість sd(x). Інтерпретація "σ"як SD даних і"мк"як середнє значення даних , ваше зауваження BTW неправильне. Програма, що демонструє цеn <- 10; x <- rnorm(n,5,2); m <- mean(x); s <- sd(x) * sqrt((n-1)/n); m2 <- sum(x^2); c(lhs=n * (m^2 + s^2), rhs=m2)
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.