Яка дисперсія зваженої суміші двох гаусів?


39

Скажіть, у мене є два нормальних розподілу A і B зі значеннями і та дисперсіями та . Я хочу взяти зважену суміш цих двох розподілів, використовуючи ваги і де і . Я знаю, що середнє значення цієї суміші було б .μ B σ A σ B p q 0 p 1 q = 1 - p μ A B = ( p × μμAμBσAσBpq0p1q=1pμAB=(p×μA)+(q×μB)

Якою буде дисперсія?


Конкретним прикладом було б, якби я знав параметри розподілу чоловічого та жіночого зросту. Якби у мене була кімната людей, яка становила 60% чоловіків, я могла б отримати очікуваний середній зріст для всієї кімнати, але як бути з дисперсією?


Ре термінологія: суміш просто має середнє значення та дисперсію; немає сенсу кваліфікувати їх як "очікувані", якщо ви, можливо, не натякаєте, що p і q слід вважати випадковими змінними.
whuber

Я знаю, що суміш двох гауссових розподілів визначена. Але якщо два розподіли однакові? Тобто, ідентифікується суміш двох нормальних розподілів з однаковими засобами та різними стандартними відхиленнями? У цьому контексті є документи? Заздалегідь

1
Подібне запитання з відповідями (маючи справу і з ПОСЛУГАМИ) тут: math.stackexchange.com/q/195911/96547
hplieninger

Відповіді:


63

Дисперсія - це другий момент мінус квадрат першого моменту, тому досить обчислити моменти сумішей.

В цілому, з урахуванням розподілу з PDF - і постійна (невипадковий) вага р я , Ф суміші становитьfipi

f(x)=ipifi(x),

з якого випливає відразу на будь-який момент щоk

μ(k)=Ef[xk]=ipiEfi[xk]=ipiμi(k).

Я написав для до т ч моменту е і ц ( K ) I для до т ч моменту е I .μ(k)kthfμi(k)kthfi

За допомогою цих формул може бути записана дисперсія

Var(f)=μ(2)(μ(1))2=ipiμi(2)(ipiμi(1))2.

Equivalently, if the variances of the fi are given as σi2, then μi(2)=σi2+(μi(1))2, enabling the variance of the mixture f to be written in terms of the variances and means of its components as

Var(f)=ipi(σi2+(μi(1))2)(ipiμi(1))2=ipiσi2+ipi(μi(1))2(ipiμi(1))2.

In words, this is the (weighted) average variance plus the average squared mean minus the square of the average mean. Because squaring is a convex function, Jensen's Inequality asserts that the average squared mean can be no less than the square of the average mean. This allows us to understand the formula as stating the variance of the mixture is the mixture of the variances plus a non-negative term accounting for the (weighted) dispersion of the means.

In your case the variance is

pAσA2+pBσB2+[pAμA2+pBμB2(pAμA+pBμB)2].

We can interpret this is a weighted mixture of the two variances, pAσA2+pBσB2, plus a (necessarily positive) correction term to account for the shifts from the individual means relative to the overall mixture mean.

The utility of this variance in interpreting data, such as given in the question, is doubtful, because the mixture distribution will not be Normal (and may depart substantially from it, to the extent of exhibiting bimodality).


8
In particular, noting that pA+pB=1, your last expression simplifies to σ2=μ(2)μ2=pAσA2+pBσB2+pApB(μAμB)2.
Ilmari Karonen

2
Or, if we do impose a probabilistic explanation for a mixture density (there is an event A of probabiity pA and the conditional density of X given A is N(μA,σA2) while the conditional density of X given Ac=B is N(μB,σB2)), then var(X) is the sum of the mean of the conditional variance plus the variance of the conditional mean. The latter is a discrete RV Y with values μA,μB with probabilities p and q and your expression in square brackets is readily recognized to be E[Y2](E[Y])2.
Dilip Sarwate

1
@Neodyme By definition, the variance is the second moment minus the mean squared. Therefore, the second moment is the variance plus the mean squared.
whuber

1
@Neodyme use E(X)=μ.
whuber

1
@Kiran Although in some cases the mixture might look Normal, it will not be. One way to see that is to compute its excess kurtosis using the formulas given here. It will be nonzero unless all the standard deviations are equal--in which case the "mixture" isn't really a mixture in the first place.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.