Як взяти похідне багатоваріантної нормальної щільності?

Скажімо, у мене багатофакторна нормальна щільність $N(\mu, \Sigma)$ . Я хочу отримати другу (часткову) похідну wrt . Не знаєте, як взяти похідне від матриці. $\mu$

Wiki каже, що приймайте похідний елемент за елементом всередині матриці.

Я працюю з наближенням Лапласа Режим - .

\log P_{N} (θ) = \log P_{N} - \frac{1}{2} {(θ - \hat{θ})}^{T} Σ^{- 1} (θ - \hat{θ}) .

$\log{P}_{N}(\theta)=\log {P}_{N}-\frac{1}{2}{(\theta-\hat{\theta})}^{T}{\Sigma}^{-1}(\theta-\hat{\theta}) \>.$

\hat{θ} = μ

$\hat\theta=\mu$

Мені дали як це сталося?

Σ^{- 1} = - \frac{\partial^{2}}{\partial θ^{2}} \log p (\hat{θ} | y),

${\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\hat{\theta }|y),$

Що я зробив:

\log P (θ | y) = - \frac{k}{2} \log 2 π - \frac{1}{2} \log | Σ | - \frac{1}{2} {(θ - \hat{θ})}^{T} Σ^{- 1} (θ - \hat{θ})

$\log P(\theta|y) = -\frac{k}{2} \log 2 \pi - \frac{1}{2} \log \left| \Sigma \right| - \frac{1}{2} {(\theta-\hat \theta)}^{T}{\Sigma}^{-1}(\theta-\hat\theta)$

Отже, я беру похідну wrt до , по-перше, є транспозиція, по-друге, це матриця. Отже, я застряг. $\theta$

Примітка: Якщо мій професор натрапив на це, я маю на увазі лекцію.

self-study normal-distribution matrix

— користувач1061210
джерело

Частина вашої проблеми може полягати в тому, що у вашому вираженні для ймовірності виникнення помилок є помилка - у вас

| Σ |

$|\Sigma|$ де ви повинні мати

\log (| Σ |)

$\log(|\Sigma|)$ . Також випадково ви мали на увазі

Σ^{- 1} = - \frac{\partial^{2}}{\partial θ^{2}} \log p (θ | y)

${\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\theta|y)$

— Макро

Так, ти маєш рацію, вибач. Чому перед частковою похідною виникає негативний знак?

— користувач1061210

Я тільки роз'яснював про негативний знак, тому що, негативна друга похідна - це спостережувана інформація про рибалки, яка зазвичай представляє інтерес. Також за власним розрахунком я вважаю, що

\frac{\partial^{2}}{\partial θ^{2}} \log p (θ | y) = - Σ^{- 1}

$\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\theta|y) = -\Sigma^{-1}$

— Макрос

Отже, яка загальна процедура дискретної / безперервної функції? Візьміть журнал, запишіть у форму розширення Тейлора, диференціюйте двічі wrt

. Інформація про Фішера, як правило, не відповідає більшості інших густин, правда?

θ

$\theta$

— користувач1061210

@user Як я зазначив, друга похідна логарифму повинна мати непозитивні власні значення. Так, існують зв’язки між дисперсіями та негативними другими частковими похідними, як виявляє теорія максимальної ймовірності, інформація про Фішера тощо - Макрос згадував про це раніше в цих коментарях.

— whuber

Відповіді:

У главі 2 Матричної кулінарної книги» є хороший огляд матеріалів матричного обчислення, який дає безліч корисних ідентифікацій, які допомагають у вирішенні проблем, пов'язаних з можливістю і статистикою, включаючи правила, що допомагають диференціювати багатоваріантну ймовірність Гаусса.

Якщо у вас є випадковий вектор який є багатоваріантним нормальним із середнім вектором та матрицею коваріації , то використовуйте рівняння (86) у матричній кулінарній книзі, щоб виявити, що градієнт вірогідності журналу відносно дорівнює ${\boldsymbol y}$ ${\boldsymbol \mu}$ ${\boldsymbol \Sigma}$ ${\bf L}$ ${\boldsymbol \mu}$

\begin{aligned} \frac{\partial L}{\partial μ} & = - \frac{1}{2} (\frac{\partial {(y - μ)}^{'} Σ^{- 1} (y - μ)}{\partial μ}) \\ = - \frac{1}{2} (- 2 Σ^{- 1} (y - μ)) \\ = Σ^{- 1} (y - μ) \end{aligned}

$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \mu}} &= -\frac{1}{2} \left( \frac{\partial \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu}\right) }{\partial {\boldsymbol \mu}} \right) \nonumber \\ &= -\frac{1}{2} \left( -2 {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu}\right) \right) \nonumber \\ &= {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \end{align}$

Я залишу це вам ще раз розрізнити це питання і знайти відповідь . $-{\boldsymbol \Sigma}^{-1}$

В якості «додаткового кредиту», рівняння використання (57) і (61) , щоб знайти , що градієнт щодо є ${\boldsymbol \Sigma}$

\begin{aligned} \frac{\partial L}{\partial Σ} & = - \frac{1}{2} (\frac{\partial \log (| Σ |)}{\partial Σ} + \frac{\partial {(y - μ)}^{'} Σ^{- 1} (y - μ)}{\partial Σ}) \\ = - \frac{1}{2} (Σ^{- 1} - Σ^{- 1} (y - μ) {(y - μ)}^{'} Σ^{- 1}) \end{aligned}

$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}} &= -\frac{1}{2} \left( \frac{ \partial \log(|{\boldsymbol \Sigma}|)}{\partial{\boldsymbol \Sigma}} + \frac{\partial \left( {\boldsymbol y} - {\boldsymbol \mu}\right)' {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y}- {\boldsymbol \mu}\right) }{\partial {\boldsymbol \Sigma}} \right)\\ &= -\frac{1}{2} \left( {\boldsymbol \Sigma}^{-1} - {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \right) \end{align}$

Я залишив безліч кроків, але я здійснив це виведення, використовуючи лише ідентичності, знайдені в кулінарній книзі матриці, тому я залишу це вам, щоб заповнити прогалини.

Я використовував ці рівняння балів для оцінки максимальної вірогідності, тому я знаю, що вони правильні :)

— Макрос
джерело

Great reference - was going to recommend it myself. Not a good pedagogical reference for someone who doesn't know matrix algebra though. The real challenge comes from actually working out

Σ

$\Sigma$ . A real pain.

— probabilityislogic

Another good source on matrix calculus is Magnus & Neudecker, amazon.com/…

— StasK

The equation's reference number has been changed (maybe due to a new edition). The new reference equation is 86.

— goelakash

I could be off-base here but I don't think this formula is correct. I've been using this with real examples and looking at their finite differences. It seems that the formula for

\frac{\partial L}{\partial Σ}

$\frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}}$ gives the correct values for the diagonal entries. However, the off-diagonal entries are half of what they should be.

— jjet

You need to make sure you properly take care of the repeated elements in $\mathbf{\Sigma}$ , otherwise you're derivatives will be incorrect. For example, (141) the Matrix Cookbook gives for a symmetric $\mathbf{\Sigma}$ the following derivatives

\begin{aligned} \frac{\partial \log | Σ |}{\partial Σ} & = 2 Σ^{- 1} - (Σ^{- 1} \circ I) \end{aligned}

$\begin{align} \frac{\partial \log|\mathbf{\Sigma}|}{\partial \mathbf{\Sigma}}&=2\mathbf{\Sigma}^{-1}-(\mathbf{\Sigma}^{-1}\circ I) \end{align}$

And (14) of Differentiation of functions of covariance matrices gives

\begin{aligned} \frac{\partial trace (Σ^{- 1} x x^{⊤})}{\partial Σ} & = - 2 Σ^{- 1} x x^{⊤} Σ^{- 1} + (Σ^{- 1} x x^{⊤} Σ^{- 1} \circ I) \end{aligned}

$\begin{align} \frac{\partial \textrm{trace}(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top)}{\partial \mathbf{\Sigma}}&=-2\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}+(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}\circ I) \end{align}$

where $\circ$ denotes the Hadmard product and for convenience we have defined $\mathbf{x}:=\mathbf{y}-\mathbf{\mu}$ .

Note in particular this is not the same as when symmetricity of $\mathbf{\Sigma}$ is not imposed. As a result we have that

\begin{aligned} \frac{\partial L}{\partial Σ} & = - \frac{\partial}{\partial Σ} \frac{1}{2} (D \log | 2 π | + \log | Σ | + x^{⊤} Σ^{- 1} x)) \\ = - \frac{\partial}{\partial Σ} \frac{1}{2} (\log | Σ | + trace (Σ^{- 1} x x^{⊤})) \\ = - \frac{1}{2} (2 Σ^{- 1} - (Σ^{- 1} \circ I) - 2 Σ^{- 1} x x^{⊤} Σ^{- 1} + (Σ^{- 1} x x^{⊤} Σ^{- 1} \circ I)) \end{aligned}

$\begin{align} \frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma}}&=-\frac{\partial }{\partial \mathbf{\Sigma}}\frac{1}{2}\left(D\log|2\pi|+ \log|\mathbf{\Sigma}| + \mathbf{x}^{\top}\mathbf{\Sigma}^{-1}\mathbf{x})\right)\\ &=-\frac{\partial }{\partial \mathbf{\Sigma}}\frac{1}{2}\left( \log|\mathbf{\Sigma}| + \textrm{trace}(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top)\right)\\ &=-\frac{1}{2}\left( 2\mathbf{\Sigma}^{-1}-(\mathbf{\Sigma}^{-1}\circ I) -2\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}+(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}\circ I)\right) \end{align}$

where $D$ denotes the dimension of $\mathbf{x}$ , $\mathbf{y}$ and $\mathbf{\mu}$ and the derivative of $D\log|2\pi|$ is 0

This ensures the $i,j^{th}$ element of $\frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma}}$ corresponds to $\frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma}_{ij}}$ .

— Lawrence Middleton
джерело

I tried to computationally verify @Macro's answer but found what appears to be a minor error in the covariance solution. He obtained

\begin{aligned} \frac{\partial L}{\partial Σ} & = - \frac{1}{2} (Σ^{- 1} - Σ^{- 1} (y - μ) {(y - μ)}^{'} Σ^{- 1}) = A \end{aligned}

$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}} &= -\frac{1}{2} \left( {\boldsymbol \Sigma}^{-1} - {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \right) ={\bf A} \end{align}$ However, it appears that the correct solution is actually

B = 2 A - diag (A)

${\bf B}=2{\bf A} - \text{diag}({\bf A})$ The following R script provides a simple example in which the finite difference is calculated for each element of

Σ

${\boldsymbol \Sigma}$ . It demonstrates that

A

${\bf A}$ provides the correct answer only for diagonal elements while

B

${\bf B}$ is correct for every entry.

library(mvtnorm)

set.seed(1)

# Generate some parameters
p <- 4
mu <- rnorm(p)
Sigma <- rWishart(1, p, diag(p))[, , 1]

# Generate an observation from the distribution as a reference point
x <- rmvnorm(1, mu, Sigma)[1, ]

# Calculate the density at x
f <- dmvnorm(x, mu, Sigma)

# Choose a sufficiently small step-size
h <- .00001

# Calculate the density at x at each shifted Sigma_ij
f.shift <- matrix(NA, p, p)
for(i in 1:p) {
  for(j in 1:p) {
    zero.one.mat <- matrix(0, p, p)
    zero.one.mat[i, j] <- 1
    zero.one.mat[j, i] <- 1

    Sigma.shift <- Sigma + h * zero.one.mat
    f.shift[i, j] <- dmvnorm(x, mu, Sigma.shift)
  }
}

# Caluclate the finite difference at each shifted Sigma_ij
fin.diff <- (f.shift - f) / h

# Calculate the solution proposed by @Macro and the true solution
A <- -1/2 * (solve(Sigma) - solve(Sigma) %*% (x - mu) %*% t(x - mu) %*% solve(Sigma))
B <- 2 * A - diag(diag(A))

# Verify that the true solution is approximately equal to the finite difference
fin.diff
A * f
B * f

— jjet
джерело

Thank you for your comment. I believe you interpret the notation differently than everyone else has, because you simultaneously change pairs of matching off-diagonal elements of

Σ

$\Sigma$ , thereby doubling the effect of the change. In effect you are computing a multiple of a directional derivative. There does appear to be a small problem with Macro's solution insofar as a transpose ought to be taken--but that would change nothing in the application to symmetric matrices.

— whuber