Що означає "фактично" об'єднана дисперсія?


15

Я нобіль у статистиці, тож чи можете ви, хлопці, допомогти мені тут.

Моє запитання таке: Що насправді означає об'єднана дисперсія ?

Коли я шукаю формулу для об'єднаної дисперсії в Інтернеті, я знаходжу багато літератури, використовуючи наступну формулу (наприклад, тут: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistic_Tests/thispage/newnode19.html ):

Sp2=S12(n11)+S22(n21)n1+n22

Але що це насправді обчислює? Тому що, коли я використовую цю формулу для обчислення моєї об'єднаної дисперсії, вона дає мені неправильну відповідь.

Наприклад, розглянемо ці "батьківські вибірки":

2,2,2,2,2,8,8,8,8,8

Дисперсія цього батьківського зразка становить , а його середнє значення ˉ x p = 5 .Sp2=10x¯p=5

Тепер, припустимо, я розділив цей батьківський зразок на два під зразки:

  1. Перша підпроба - 2,2,2,2,2 із середнім значенням та дисперсією S 2 1 = 0 .x¯1=2S12=0
  2. Другий підвибір становить 8,8,8,8,8 із середнім значенням та дисперсією S 2 2 = 0 .x¯2=8S22=0

Тепер, чітко, використовуючи вищезазначену формулу для обчислення об'єднаної / батьківської дисперсії цих двох субпроб, отримаємо нуль, оскільки і S 2 = 0 . Отже, що насправді обчислює ця формула ?S1=0S2=0

З іншого боку, після деякого тривалого виведення я знайшов формулу, яка створює правильну відмінність / батьківську дисперсію:

Sp2=S12(n11)+n1d12+S22(n21)+n2d22n1+n21

У наведеній вище формулі, і д 2 = ¯ х 2 - ˉ х р .d1=x1¯x¯pd2=x2¯x¯p

Я знайшов подібну формулу з моєю, наприклад тут: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html, а також у Вікіпедії. Хоча я мушу визнати, що вони виглядають не так, як у мене.

Отже, знову ж таки, що насправді означає об'єднана дисперсія? Чи не повинно це означати дисперсію батьківського зразка від двох підпроб? Або я тут абсолютно помиляюся?

Спасибі заздалегідь.


EDIT 1: Хтось каже, що мої два вище зразки патологічні, оскільки вони мають нульову дисперсію. Ну, я можу навести вам інший приклад. Розглянемо цей батьківський зразок:

1,2,3,4,5,46,47,48,49,50

Дисперсія цього батьківського зразка становить , його середнє значення ˉ x p = 25,5 .Sp2=564.7x¯p=25.5

Тепер, припустимо, я розділив цей батьківський зразок на два під зразки:

  1. Перша підпроба 1,2,3,4,5 із середнім значенням та дисперсією S 2 1 = 2,5 .x¯1=3S12=2.5
  2. Другий підвибір 46,47,48,49,50 із середнім значенням та дисперсією S 2 2 = 2,5 .x¯2=48S22=2.5

Тепер, якщо ви використовуєте "формулу літератури" для обчислення об'єднаної дисперсії, ви отримаєте 2,5, що абсолютно неправильно, оскільки дисперсія батьків / об'єднаних повинна бути 564,7. Натомість, якщо ви використовуєте "мою формулу", ви отримаєте правильну відповідь.

Будь ласка, зрозумійте, я використовую тут крайні приклади, щоб показати людям, що формула дійсно неправильна. Якщо я використовую "звичайні дані", які не мають великої кількості варіацій (крайні випадки), результати цих двох формул будуть дуже схожими, і люди можуть відкинути різницю через помилку округлення, а не тому, що сама формула є неправильно.


Деякі пов’язані посилання на допомогу: stats.stackexchange.com/q/214834/3277 , stats.stackexchange.com/q/12330/3277 , stats.stackexchange.com/q/43159/3277 .
ttnphns

Відповіді:


13

Простіше кажучи, об'єднана дисперсія - це (неупереджена) оцінка дисперсії в межах кожного зразка, за умови, що ці дисперсії рівні.

Це пояснюється, мотивується та аналізується докладно у статті Вікіпедії для об'єднаної дисперсії .

Він не оцінює дисперсію нового "мета-зразка", утвореного шляхом об'єднання двох окремих зразків, як ви вважали. Як ви вже виявили, оцінка, що вимагає зовсім іншої формули.


Припущення про «рівність» (тобто, то ж населення зрозуміли ці зразки) не потрібно взагалі визначити , що це - «об'єднують». Об’єднати просто означає усереднене, омнібус (див. Мій коментар до Тіма).
ttnphns

@ttnphns Я вважаю, що припущення про рівність необхідне для надання об'єднаній дисперсії концептуальному значенню (яке просив ОП), яке виходить за рамки просто словесного опису математичної операції, яку вона виконує на вибіркових варіаціях. Якщо відхилення чисельності населення не вважаються рівними, то незрозуміло, що ми могли б вважати об'єднаною дисперсією оцінкою. Звичайно, ми могли б просто подумати про це як об'єднання двох дисперсій і залишити це при цьому, але це навряд чи освічує за відсутності будь-якої мотивації бажати поєднувати дисперсії в першу чергу.
Джейк Вестпад

Джейк, я не з цим погоджуюся, враховуючи конкретне питання ОП, але я хотів поговорити про визначення слова "об'єднаний", тому я сказав "взагалі".
ttnphns

@JakeWestfall Ваша відповідь - найкраща відповідь досі. Дякую. Хоча мені досі не зрозуміло одне. Згідно з Вікіпедією, об'єднана дисперсія - це метод оцінки дисперсії кількох різних популяцій, коли середня кількість кожної популяції може бути різною , але можна припустити, що дисперсія кожної популяції однакова .
Hanciong

@JakeWestfall: Отже, якщо ми обчислюємо об'єднану дисперсію з двох різних сукупностей різними засобами, що це насправді обчислює? Тому що перша дисперсія вимірює варіацію відносно першої середньої, а друга дисперсія відносно другої середньої. Я не знаю, яку додаткову інформацію можна отримати від її обчислення.
Hanciong

10

Об'єднана дисперсія використовується для об'єднання варіацій різних зразків шляхом взяття їх середньозваженого середнього, щоб отримати "загальну" дисперсію. Проблема вашого прикладу полягає в тому, що це патологічний випадок, оскільки для кожної з підпроб є відхилення, рівне нулю. Такий патологічний випадок має дуже мало спільного з даними, з якими ми зазвичай стикаємось, оскільки завжди є певна мінливість, і якщо немає варіабельності, ми не дбаємо про такі змінні, оскільки вони не несуть ніякої інформації. Потрібно зауважити, що це дуже простий метод і є більш складні способи оцінки дисперсії в ієрархічних структурах даних, які не схильні до таких проблем.

nkx1,1,x2,1,,xn1,k,xn,k, where the i-th index in xi,j stands for cases and j-th index stands for group indexes. There are several scenarios possible, you can assume that all the points come from the same distribution (for simplicity, let's assume normal distribution),

(1)xi,jN(μ,σ2)

you can assume that each of the sub-samples has its own mean

(2)xi,jN(μj,σ2)

or, its own variance

(3)xi,jN(μ,σj2)

or, each of them have their own, distinct parameters

(4)xi,jN(μj,σj2)

Depending on your assumptions, particular method may, or may not be adequate for analyzing the data.

In the first case, you wouldn't be interested in estimating the within-group variances, since you would assume that they all are the same. Nonetheless, if you aggregated the global variance from the group variances, you would get the same result as by using pooled variance since the definition of variance is

Var(X)=1n1i(xiμ)2

and in pooled estimator you first multiply it by n1, then add together, and finally divide by n1+n21.

In the second case, means differ, but you have a common variance. This example is closest to your example in the edit. In this scenario, the pooled variance would correctly estimate the global variance, while if estimated variance on the whole dataset, you would obtain incorrect results, since you were not accounting for the fact that the groups have different means.

In the third case it doesn't make sense to estimate the "global" variance since you assume that each of the groups have its own variance. You may be still interested in obtaining the estimate for the whole population, but in such case both (a) calculating the individual variances per group, and (b) calculating the global variance from the whole dataset, can give you misleading results. If you are dealing with this kind of data, you should think of using more complicated model that accounts for the hierarchical nature of the data.

The fourth case is the most extreme and quite similar to the previous one. In this scenario, if you wanted to estimate the global mean and variance, you would need a different model and different set of assumptions. In such case, you would assume that your data is of hierarchical structure, and besides the within-group means and variances, there is a higher-level common variance, for example assuming the following model

(5)xi,jN(μj,σj2)μjN(μ0,σ02)σj2IG(α,β)

where each sample has its own means and variances μj,σj2 that are themselves draws from common distributions. In such case, you would use a hierarchical model that takes into consideration both the lower-level and upper-level variability. To read more about this kind of models, you can check the Bayesian Data Analysis book by Gelman et al. and their eight schools example. This is however much more complicated model then the simple pooled variance estimator.


I have updated my question with different example. In this case, the answer from "literature's formula" is still wrong. I understand that we are usually dealing with "normal data" where there is no extreme case like my example above. However, as mathematicians, shouldn't you care about which formula is indeed correct, instead of which formula applies in "everyday/common problem"? If some formula is fundamentally wrong, it should be discarded, especially if there is another formula which holds in all cases, pathological or not.
Hanciong

Btw you said there are more complicated ways of estimating variance. Could you show me these ways? Thank you
Hanciong

2
Tim, pooled variance is not the total variance of the "combined sample". In statistics, "pooled" means weighted averaged (when we speak of averaged quantities such as variances, weights being the n's) or just summed (when we speak of sums such as scatters, sums-of-squares). Please, reconsider your terminology (choice of words) in the answer.
ttnphns

1
Albeit off the current topic, here is an interesting question about "common" variance concept. stats.stackexchange.com/q/208175/3277
ttnphns

1
Hanciong. I insist that "pooled" in general and even specifically "pooled variance" concept does not need, in general, any assumption such as: groups came from populations with equal variances. Pooling is simply blending (weighted averaging or summing). It is in ANOVA and similar circumstances that we do add that statistical assumption.
ttnphns

1

The problem is if you just concatenate the samples and estimate its variance you're assuming they're from the same distribution therefore have the same mean. But we are in general interested in several samples with different mean. Does this make sense?


0

The use-case of pooled variance is when you have two samples from distributions that:

  • may have different means, but
  • which you expect to have an equal true variance.

An example of this is a situation where you measure the length of Alice's nose n times for one sample, and measure the length of Bob's nose m times for the second. These are likely to produce a bunch of different measurements on the scale of millimeters, because of measurement error. But you expect the variance in measurement error to be the same no matter which nose you measure.

In this case, taking the pooled variance would give you a better estimate of the variance in measurement error than taking the variance of one sample alone.


Thank you for your answer, but I still don't understand about one thing. The first data gives you the variance with respect to Alice's nose length, and the second data gives you the variance with respect to Bob's nose length. If you are calculating a pooled variance from those data, what does it mean actually? Because the first variance is measuring the variation with respect to Alice's, and the second with respect to Bob's, so what additional information can we gained by calculating their pooled variance? They are completely different numbers.
Hanciong

0

Through pooled variance we are not trying to estimate the variance of a bigger sample, using smaller samples. Hence, the two examples you gave don't exactly refer to the question.

Pooled variance is required to get a better estimate of population variance, from two samples that have been randomly taken from that population and come up with different variance estimates.

Example, you are trying to gauge variance in the smoking habits of males in London. You sample two times, 300 males from London. You end up getting two variances (probably a bit different!). Now since, you did a fair random sampling (best to your capability! as true random sampling is almost impossible), you have all the rights to say that both the variances are true point estimates of population variance (London males in this case).

But how is that possible? i.e. two different point estimates!! Thus, we go ahead and find a common point estimate which is pooled variance. It is nothing but weighted average of two point estimates, where the weights are the degree of freedom associated with each sample.

Hope this clarifies.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.