Отримання оцінок максимальної ймовірності
Припустимо, що у нас єm випадкових векторів, кожен з розміру : X ( 1 ) , X ( 2 ) , . . . , X ( m ), де кожен випадковий вектор може бути інтерпретований як спостереження (точка даних) через p змінних. Якщо кожен X ( i ) є iid як багатоваріантний гауссовский вектор:pX(1),X(2),...,X(m)pX(i)
X(i)∼Np(μ,Σ)
Де параметри невідомі. Для отримання їх оцінки ми можемо використовувати метод максимальної ймовірності та максимізувати функцію вірогідності журналу.μ,Σ
Зверніть увагу , що в незалежності випадкових векторів, спільна щільність даних - добуток окремих густин, тобто ∏ m i = 1 f X ( i ) ( x ( i ) ; μ , Σ ) . Прийняття логарифму дає функцію вірогідності журналу{X(i),i=1,2,...,m}∏mi=1fX(i)(x(i);μ,Σ)
l ( μ , Σ | x( i ))= журнал∏i = 1мfХ( i )( х( i )| μ,Σ)= журнал ∏i = 1м1( 2 π)р / 2| Σ |1 / 2досвід( - 12( х( i )- мк )ТΣ- 1( х( i )−μ))=∑i=1m(−p2log(2π)−12log|Σ|−12(x(i)−μ)TΣ−1(x(i)−μ))
l(μ,Σ;)=−mp2log(2π)−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)
виведення μμ^
Щоб взяти похідну відносно та прирівняти до нуля, ми скористаємося такою ідентичністю матричного обчислення:μ
якщоw
не залежить відAіAє симетричним.∂wTAw∂w=2AwwAA
∂∂μl(μ,Σ|x(i))0μ^=∑i=1mΣ−1(μ−x(i))=0Since Σ is positive definite=mμ−∑i=1mx(i)=1m∑i=1mx(i)=x¯
Що часто називають середнім зразком вектора.
виводячи ΣΣ^
Виведення MLE для коваріаційної матриці вимагає додаткової роботи та використання таких властивостей лінійної алгебри та обчислення:
- Слід інваріантний при циклічних перестановках матричних продуктів: tr[ACB]=tr[CAB]=tr[BCA]
- Since xTAx is scalar, we can take its trace and obtain the same value: xtAx=tr[xTAx]=tr[xtxA]
- ∂∂Atr[AB]=BT
- ∂∂Alog|A|=A−T
Combining these properties allows us to calculate
∂∂AxtAx=∂∂Atr[xTxA]=[xxt]T=xTTxT=xxT
Which is the outer product of the vector x with itself.
We can now re-write the log-likelihood function and compute the derivative w.r.t. Σ−1 (note C is constant)
l(μ,Σ|x(i))∂∂Σ−1l(μ,Σ|x(i))=C−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)=C+m2log|Σ−1|−12∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1]=m2Σ−12∑i=1m(x(i)−μ)(x(i)−μ)T Since ΣT=Σ
Equating to zero and solving for Σ
0Σ^=mΣ−∑i=1m(x(i)−μ)(x(i)−μ)T=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T
Sources