Отримання умовних розподілів багатоваріантного нормального розподілу


114

У нас є багатоваріантний нормальний вектор YN(μ,Σ) . Розглянемо розділення μ та Y на

μ=[μ1μ2]
Y=[y1y2]

з аналогічним розділом Σ на

[Σ11Σ12Σ21Σ22]
Потім, (y1|y2=a) , умовний розподіл першого розділу, заданого другого, є N(μ¯,Σ¯) , із середнім
μ¯=μ1+Σ12Σ221(aμ2)
та матрицею коваріації
Σ¯=Σ11Σ12Σ221Σ21

Насправді ці результати також надаються у Вікіпедії, але я не маю уявлення, як походять μ¯ та Σ¯ . Ці результати мають вирішальне значення, оскільки вони є важливою статистичною формулою для отримання фільтрів Калмана . Хто-небудь надасть мені етапи виведення виведення μ¯ та Σ¯ ? Дуже дякую!


24
Ідея полягає у використанні визначення умовної щільності . Ви знаєте, що суглоб - норма двовимірної норми і що граничний є нормальним, тоді вам просто потрібно замінити значення і зробити неприємну алгебру. Ці замітки можуть бути корисними. Ось повний доказ. f(y1|y2=a)=fY1,Y2(y1,a)fY2(a)fY1,Y2fY2

1
Ваше друге посилання відповідає на питання (+1). Чому б не поставити це як відповідь @Procrastinator?
gui11aume

1
Я цього не усвідомлював, але думаю, що я неявно використовував це рівняння в умовному PCA. Умовна PCA вимагає перетворення яке ефективно обчислює матрицю умовної коваріації з урахуванням деякого вибору А.(IA(AA)1A)Σ
Джон

@Procrastinator - ваш підхід фактично вимагає знання ідентичності матриці Вудбері та знання блок-інверсії матриці. Це призводить до надмірно складної матричної алгебри.
ймовірністьлогічний

2
@probabilityislogic Насправді результат доведений у наданому мені посиланні. Але це респектабельно, якщо вам це здається складнішим за інші методи. Крім того, я не намагався запропонувати оптимальне рішення у своєму коментарі . Також мій коментар був попереднім відповіддю Макроса (який я підтримав, як бачите).

Відповіді:


111

Ви можете довести це, чітко обчисливши умовну щільність грубою силою, як у посиланні Прокрастинатора (+1) у коментарях. Але є також теорема, яка говорить про те, що всі умовні розподіли багатоваріантного нормального розподілу є нормальними. Тому залишається лише обчислити матрицю середнього вектора та коваріації. Я пам’ятаю, ми отримали це в класі часових рядів у коледжі, вміло визначивши третю змінну та використовуючи її властивості, щоб отримати результат простіше, ніж грубе рішення в посиланні (доки вам не подобається матрична алгебра). Я йду з пам’яті, але це було щось подібне:


Нехай - перший розділ, а другий. Тепер визначте де . Тепер ми можемо писатиx1x2z=x1+Ax2A=Σ12Σ221

cov(z,x2)=cov(x1,x2)+cov(Ax2,x2)=Σ12+Avar(x2)=Σ12Σ12Σ221Σ22=0

Тому і є некорельованими, і, оскільки вони спільно нормальні, вони незалежні . Тепер чітко , тому випливає, щоzx2E(z)=μ1+Aμ2

E(x1|x2)=E(zAx2|x2)=E(z|x2)E(Ax2|x2)=E(z)Ax2=μ1+A(μ2x2)=μ1+Σ12Σ221(x2μ2)

що доводить першу частину. Для матриці коваріації зауважте, що

var(x1|x2)=var(zAx2|x2)=var(z|x2)+var(Ax2|x2)Acov(z,x2)cov(z,x2)A=var(z|x2)=var(z)

Зараз ми майже закінчили:

var(x1|x2)=var(z)=var(x1+Ax2)=var(x1)+Avar(x2)A+Acov(x1,x2)+cov(x2,x1)A=Σ11+Σ12Σ221Σ22Σ221Σ212Σ12Σ221Σ21=Σ11+Σ12Σ221Σ212Σ12Σ221Σ21=Σ11Σ12Σ221Σ21

що доводить другу частину.

Примітка. Для тих, хто не дуже знайомий з матричною алгеброю, яка використовується тут, це відмінний ресурс .

Редагувати: Одне властивість, що використовується тут, це не у матричній кулінарній книзі (хороший улов @FlyingPig) - це властивість 6 на сторінці вікіпедії про матриці коваріації: тобто для двох випадкових векторів , Для скалярів, звичайно, але для векторів вони різні, оскільки матриці розташовані по-різному.x,y

var(x+y)=var(x)+var(y)+cov(x,y)+cov(y,x)
cov(X,Y)=cov(Y,X)

Дякую за цей геніальний метод! Є одна матрична алгебра не здається мені знайомою, де я можу знайти формулу для відкриття ? Я не знайшов його за посиланням, яке ви надіслали. var(x1+Ax2)
Летюча свиня

@Flyingpig, ласкаво просимо. Я вважаю, що це результат рівнянь поєднанні з додатковою властивістю дисперсії суми випадкових векторів, які не записані в «Матричній кулінарній книзі» - я додав цей факт до своєї відповіді - дякую, що знайшов що! (291),(292)
Макрос

13
Це дуже хороша відповідь (+1), але її можна вдосконалити з точки зору впорядкованості підходу. Почнемо з того, що ми хочемо лінійну комбінацію всього вектора, незалежного / некорельованого з . Це тому, що ми можемо використовувати той факт, що що означає і . Вони в свою чергу призводять до виразів для та . Це означає , що ми повинні прийняти . Тепер нам потрібен . Якщо є зворотним, то маємоz=Cx=C1x1+C2x2x2p(z|x2)=p(z)var(z|x2)=var(z)E(z|x2)=E(z)var(C1x1|x2)E(C1x1|x2)C1=Icov(z,x2)=Σ12+C2Σ22=0Σ22C2=Σ12Σ221 .
ймовірність

1
@jakeoung - це не доведення, що , воно встановлює це значення, так що ми отримуємо вираз, який містить змінні, про які ми хочемо знати. C1=I
ймовірність

1
@jakeoung Я також не зовсім розумію це твердження. Я розумію таким чином: якщо , то . Тож значення якимось чином є довільною шкалою. Отже, для простоти встановимоcov(z,x2)=0cov(C11z,x2)=C11cov(z,x2)=0C1C1=I
Кен Т

6

Відповідь Макроса чудова, але ось ще простіший спосіб, який не вимагає від вас жодної зовнішньої теореми, яка стверджує умовний розподіл. Він передбачає запис відстані Маханалобіса у формі, яка відокремлює змінну аргументу для констатуючого твердження, а потім відповідно факторизує нормальну щільність.


Переписання відстані Маханалобіса для умовного вектора: Ця деривація використовує формулу інверсії матриці, яка використовує доповнення Шура . Спочатку використовуємо формулу інверсії за блоковою стрілкою, щоб записати матрицю оберненої дисперсії у вигляді:ΣS=Σ11Σ12Σ221Σ21

Σ1=[Σ11Σ12Σ21Σ22]1=[Σ11Σ12Σ21Σ22],

де:

Σ11=ΣS1 Σ12=ΣS1Σ12Σ221,Σ21=Σ221Σ12ΣS1Σ22=Σ221Σ12ΣS1Σ12Σ221. 

За допомогою цієї формули ми можемо записати відстань Маханалобіса у вигляді:

(yμ)TΣ1(yμ)=[y1μ1y2μ2]T[Σ11Σ12Σ21Σ22][y1μ1y2μ2]=(y1μ1)TΣ11(y1μ1)+(y1μ1)TΣ12(y2μ2)+(y2μ2)TΣ21(y1μ1)+(y2μ2)TΣ22(y2μ2)=(y1(μ1+Σ12Σ221(y2μ2)))TΣS1(y1(μ1+Σ12Σ221(y2μ2)))=(y1μ)TΣ1(y1μ),

де:

μμ1+Σ12Σ221(y2μ2),ΣΣ11Σ12Σ221Σ21.

Зауважимо, що цей результат є загальним результатом, який не передбачає нормальності випадкових векторів. Це дає корисний спосіб переоформлення відстані Маханалобіса, щоб вона була квадратичною формою відносно лише одного з векторів при розкладанні (з іншим, поглиненим у матрицю середнього вектора та дисперсії).


Отримання умовного розподілу: Тепер, коли у нас є вищенаведена форма для відстані Маханалобіс, решта легко. Ми маємо:

p(y1|y2,μ,Σ)y1p(y1,y2|μ,Σ)=N(y|μ,Σ)y1exp(12(yμ)TΣ1(yμ))=exp(12(y1μ)TΣ1(y1μ))y1N(y1|μ,Σ).

Це встановлює, що умовний розподіл є також багатоваріантним нормальним, із заданим умовно-середнім матрицею вектора та умовною дисперсією.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.