Максимальна оцінка ймовірності - багатоваріантний гаусс


20

Контекст

Багатоваріантний Гауссан часто з'являється в машинному навчанні, і наступні результати використовуються у багатьох книгах та курсах МЛ без виводів.

Наведені дані у вигляді матриці розмірів , якщо припустити, що за даними слід варіантний гауссовий розподіл із значеннями параметрів ( ) та матриці коваріації ( ) Оцінки максимальної ймовірності задаються:Xm×ppμp×1Σp×p

  • μ^=1mi=1mx(i)=x¯
  • Σ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Я розумію, що знання про багатоваріантність Гаусса є необхідною умовою для багатьох курсів з МЛ, але було б корисно повне виведення в самостійній відповіді раз і назавжди, тому що я відчуваю, що багато самостійних учнів підстрибують навколо статистики. Веб-сайти stackexchange та math.stackexchange шукають відповіді.


Питання

Яке повне виведення оцінок максимальної ймовірності для багатовимірного гаусса


Приклади:

Ці конспекти лекцій (стор. 11) про лінійний дискримінантний аналіз, або вони використовують результати та використовують попередні знання.

Також є кілька публікацій, на які частково відповідають або закриваються:

Відповіді:


24

Отримання оцінок максимальної ймовірності

Припустимо, що у нас єm випадкових векторів, кожен з розміру : X ( 1 ) , X ( 2 ) , . . . , X ( m ), де кожен випадковий вектор може бути інтерпретований як спостереження (точка даних) через p змінних. Якщо кожен X ( i ) є iid як багатоваріантний гауссовский вектор:pX(1),X(2),...,X(m)pX(i)

X(i)Np(μ,Σ)

Де параметри невідомі. Для отримання їх оцінки ми можемо використовувати метод максимальної ймовірності та максимізувати функцію вірогідності журналу.μ,Σ

Зверніть увагу , що в незалежності випадкових векторів, спільна щільність даних - добуток окремих густин, тобто m i = 1 f X ( i ) ( x ( i ) ; μ , Σ ) . Прийняття логарифму дає функцію вірогідності журналу{X(i),i=1,2,...,m}i=1mfX(i)(x(i);μ,Σ)

l(μ,Σ|x(i))=logi=1mfX(i)(x(i)|μ,Σ)=log i=1m1(2π)p/2|Σ|1/2exp(12(x(i)μ)TΣ1(x(i)μ))=i=1m(p2log(2π)12log|Σ|12(x(i)μ)TΣ1(x(i)μ))

l(μ,Σ;)=mp2log(2π)m2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)

виведення μμ^

Щоб взяти похідну відносно та прирівняти до нуля, ми скористаємося такою ідентичністю матричного обчислення:μ

якщоw не залежить відAіAє симетричним.wTAww=2AwwAA

μl(μ,Σ|x(i))=i=1mΣ1(μx(i))=0Since Σ is positive definite0=mμi=1mx(i)μ^=1mi=1mx(i)=x¯

Що часто називають середнім зразком вектора.

виводячи ΣΣ^

Виведення MLE для коваріаційної матриці вимагає додаткової роботи та використання таких властивостей лінійної алгебри та обчислення:

  • Слід інваріантний при циклічних перестановках матричних продуктів: tr[ACB]=tr[CAB]=tr[BCA]
  • Since xTAx is scalar, we can take its trace and obtain the same value: xtAx=tr[xTAx]=tr[xtxA]
  • Atr[AB]=BT
  • Alog|A|=AT

Combining these properties allows us to calculate

AxtAx=Atr[xTxA]=[xxt]T=xTTxT=xxT

Which is the outer product of the vector x with itself.

We can now re-write the log-likelihood function and compute the derivative w.r.t. Σ1 (note C is constant)

l(μ,Σ|x(i))=Cm2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)=C+m2log|Σ1|12i=1mtr[(x(i)μ)(x(i)μ)TΣ1]Σ1l(μ,Σ|x(i))=m2Σ12i=1m(x(i)μ)(x(i)μ)T  Since ΣT=Σ

Equating to zero and solving for Σ

0=mΣi=1m(x(i)μ)(x(i)μ)TΣ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Sources


Alternative proofs, more compact forms, or intuitive interpretation are welcome !
Xavier Bourret Sicotte

In the derivation for μ, why does Σ need to be positive definite? Does it seem enough that Σ is invertible? For an invertible matrix A, Ax=0 only when x=0?
Tom Bennett

To clarify, Σ is an m×m matrix that may have finite diagonal and non-diagonal components indicating correlation between vectors, correct? If that is the case, in what sense are these vectors independent? Also, why is the joint probability function equal to the likelihood? Shouldn't the joint density, f(x,y), be equal to the likelihood multiplied by the prior, i.e. f(x|y)f(y)?
Mathews24

1
@TomBennett the sigma matrix is positive definite by definition - see stats.stackexchange.com/questions/52976/… for the proof. The matrix calculus identity requires the matrix to be symmetric, not positive definite. But since positive definite matrices are always symmetric that works
Xavier Bourret Sicotte

1
Yes indeed - independence between observations allow to get the likelihood - the wording may be unclear faie enough - this is the multivariate version of the likelihood. The prior is still irrelevant regardless
Xavier Bourret Sicotte

5

Альтернативний доказ для Σ^ що приймає похідну відносно Σ безпосередньо:

Вибір з імовірністю журналу, як описано вище:

(мк,Σ)=С-м2журнал|Σ|-12i=1мтр[(х(i)-мк)ТΣ-1(х(i)-мк)]=С-12(мжурнал|Σ|+i=1мтр[(х(i)-мк)(х(i)-мк)ТΣ-1])=С-12(мжурнал|Σ|+тр[SмкΣ-1])
де Sмк=i=1м(х(i)-мк)(х(i)-мк)Т і ми використали циклічні та лінійні властивості тр. Для обчислення/Σ ми спочатку це спостерігаємо
Σжурнал|Σ|=Σ-Т=Σ-1
четвертою властивістю вище. Для отримання похідної другого доданка нам знадобиться властивість, яка
Хтр(АХ-1Б)=-(Х-1БАХ-1)Т.
Кулінарної книги «Матриця» , рівняння 63). Застосовуючи це за допомогоюБ=Я ми отримуємо це
Σтр[SмкΣ-1]=-(Σ-1SмкΣ-1)Т=-Σ-1SмкΣ-1
бо обидва Σ і Sмкє симетричними. Потім
Σ(μ,Σ)mΣ1Σ1SμΣ1.
Setting this to 0 and rearranging gives
Σ^=1mSμ.

This approach is more work than the standard one using derivatives with respect to Λ=Σ1, and requires a more complicated trace identity. I only found it useful because I currently need to take derivatives of a modified likelihood function for which it seems much harder to use /Σ1 than /Σ.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.