Відповідна міра для пошуку найменшої матриці коваріації


10

У підручнику, який я читаю, вони використовують позитивну визначеність (напівпозитивна визначеність) для порівняння двох матриць коваріації. Ідея полягає в тому , що якщо має полідисперсність , то менше , ніж A . Але я намагаюся отримати інтуїцію цих стосунків?ABBA

Тут є подібна нитка:

/math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices

Яка інтуїція використовувати визначеність для порівняння матриць?

Хоча відповіді приємні, вони насправді не стосуються інтуїції.

Ось приклад, який я вважаю заплутаним:

[1612129][1224]

тепер тут визначальником різниці є -25, тому відношення не pd або навіть psd і тому перша матриця не більша за першу?

Я просто хочу порівняти дві коваріаційні матриці 3 * 3, щоб побачити, яка найменша? Мені здасться більш інтуїтивним використовувати щось подібне до евклідової норми для їх порівняння? Однак це означатиме, що перша матриця вище є більшою, ніж друга. Крім того, я коли-небудь бачу критерій pd / psd, який використовується для порівняння матриць коваріації.

Чи може хтось пояснити, чому pd / psd краще, ніж використовувати інший захід, наприклад, евклідова норма?

Я також розмістив це питання на математичному форумі (не був впевнений, що найкраще) сподіваюся, що це не суперечить жодним правилам.

/math/628135/comparing-two-covariance-matrices


2
Ви можете прочитати це, де розглядається інтуїція, що стоїть за позитивною (напів) визначеністю. Якщо ви порівнюєте 2 відхилення aі b, якщо a-bє позитивними, то ми б сказали, що при видаленні змінності bпоза aнею залишається деяка "реальна" мінливість a. Аналогічним чином є випадок багатоваріантних дисперсій (= коваріаційних матриць) Aта B. Якщо A-Bпозитивно визначено, то це означає, що A-Bконфігурація векторів є "справжньою" в евклідовому просторі: іншими словами, після вилучення Bз Aних останній залишається життєздатною мінливістю.
ttnphns

2
Що ви маєте на увазі під "найменшим" з двох коваріаційних матриць?
whuber

Привіт, але коваріаційні матриці стосуються конкуруючих оцінок, я хочу вибрати оцінювач, який має найменшу дисперсію. (Чи пояснює це речі?)
Баз

2
Баз: Тоді чому б безпосередньо не порівняти дисперсії оцінювачів?
Glen_b -Встановіть Моніку

Привіт там встановлений метод, наводиться вираз для того, що вони називають дисперсією (яка включає коваріації). Однак, навіть якби я порівнював лише відхилення, це все одно включатиме порівняння векторних значень, які матимуть подібні проблеми зі порівнянням матричних значень?
Баз

Відповіді:


8

Упорядкування матриць, на які ви посилаєтесь, відоме як порядок Лоенера і є частковим порядком, який багато використовується в дослідженні позитивних певних матриць. Книга довжина обробка геометрії на різноманітті позитивно певних (posdef) матриць тут .

Спершу спробую вирішити ваше питання щодо інтуїції . (Симетрична) матриця є posdef, якщо для всіх . Якщо - випадкова величина (rv) з коваріаційною матрицею , то є (пропорційною) її проекцією на деякий однотемний підпростір, а . Застосовуючи це до у вашому Q, по-перше: це матриця коваріації, друге: Випадкова величина з коварною матрицею проектується у всіх напрямках з меншою дисперсією, ніж rv з матрицею коваріаціїAcTAc0cRnXAcTXVar(cTX)=cTAcABBAA. Це дає зрозуміти, що це впорядкування може бути лише частковим, є багато rv, які проектуватимуться в різних напрямках із надзвичайно різними варіаціями. Ваша пропозиція про якусь норму Евкліда не має такого природного статистичного тлумачення.

Ваш "заплутаний приклад" є заплутаним, оскільки обидві матриці мають визначальний нуль. Отже, для кожного з них є один напрямок (власний вектор з власним значенням нуля), де вони завжди проектуються на нуль . Але цей напрямок є різним для двох матриць, тому їх неможливо порівняти.

Порядок Лоенера визначається таким чином, що , є більш позитивним, ніж , якщо є posdef. Це частковий порядок, для деяких матриць posdef ні ні є posdef. Приклад: Один із способів показуючи це графічно, малює графік з двома еліпсами, але зосередженим біля початку, асоційованим стандартним чином з матрицями (тоді радіальна відстань у кожному напрямку пропорційна дисперсії, що виступає в цьому напрямку):ABBABABAAB

A=(10.50.51),B=(0.5001.5)

Дві матриці posdef, показані у вигляді еліпсів

У цьому випадку два еліпси збігаються, але обертаються по-різному (насправді кут становить 45 градусів). Це відповідає тому, що матриці і мають однакові власні значення, але власні вектори обертаються.AB

Оскільки ця відповідь багато в чому залежить від властивостей еліпсів, наступна Яка інтуїція стоїть за умовними розподілами Гаусса? пояснення еліпсів геометрично, може бути корисним.

Зараз я поясню, як визначаються еліпси, пов'язані з матрицями. Матриця posdef визначає квадратичну форму . Це можна побудувати як функцію, графік буде квадратичним. Якщо то графік завжди буде вище графіка . Якщо ми виріжемо графіки горизонтальною площиною на висоті 1, то надрізи описують еліпси (це насправді спосіб визначення еліпсів). Цей еліпс задається рівнянням і ми бачимо, щоAQA(c)=cTAcABQBQA

QA(c)=1,QB(c)=1
ABвідповідає еліпсу B (тепер з інтер'єром) міститься в межах еліпса А. Якщо не буде порядку, не буде стримування. Ми зауважуємо, що порядок включення протилежний частковому порядку Лоунера, якщо нам не подобається, що ми можемо намалювати еліпси інверсів. Це тому, що еквівалентний . Але я залишатимуся з еліпсами, як тут визначено.ABB1A1

Еліпс можна описати за допомогою півфіксів та їх довжини. Ми обговоримо лише -матриці тут, оскільки вони є тими, які ми можемо намалювати ... Тому нам потрібні дві головні осі та їх довжина. Це можна знайти, як пояснено тут з ейгендекомпозицією матриці posdef. Тоді головні осі задаються власними векторами, а їх довжина може бути обчислена із власних значень по Також ми можемо побачити, що область еліпса, що представляє є .2×2a , b λ 1 , λ 2 a = a,bλ1,λ2

a=1/λ1,b=1/λ2.
Aπab=π1/λ11/λ2=πdetA

Наведу останній приклад, де можна замовити матриці:

Дві матриці, які можна впорядкувати, побудовані у вигляді еліпсів

Дві матриці в цьому випадку були:

A=(2/31/51/53/4),B=(11/71/71)


3

@kjetil b halvorsen приємно обговорює геометричну інтуїцію за позитивною напіввизначеністю як часткове впорядкування. Я дозволю собі більш тую інтуїцію. Такий, який виходить із того, які типи обчислень ви б хотіли зробити з вашими дисперсійними матрицями.

Припустимо, у вас є дві випадкові величини і . Якщо вони є скалярами, то ми можемо обчислити їх відхилення як скаляри та порівняти їх очевидним чином, використовуючи скалярні дійсні числа та . Отже, якщо і , ми говоримо, що випадкова величина має меншу дисперсію, ніж .xyV(x)V(y)V(x)=5V(y)=15xy

З іншого боку, якщо і є векторними значеннями випадкових величин (скажімо, вони двовекторні), то як ми порівнюємо їх відхилення, не так очевидно. Скажіть, що їх відхилення: Як порівняємо дисперсії цих двох випадкових векторів? Одне, що ми могли б зробити, - це лише порівняти дисперсії відповідних елементів. Отже, ми можемо сказати, що дисперсія менша, ніж дисперсія , лише порівнявши дійсні числа, наприклад: іxy

V(x)=[10.50.51]V(y)=[8336]
x1y1V(x1)=1<8=V(y1)V(x2)=1<6=V(y2). Отже, можливо, ми могли б сказати, що дисперсія дорівнює дисперсії якщо дисперсія кожного елемента є дисперсією відповідного елемента . Це було б так, як сказати якщо кожен з діагональних елементів є відповідним діагональним елементом .xyxyV(x)V(y)V(x)V(y)

Це визначення здається розумним спочатку рум'янцем. Крім того, поки матриці дисперсії, які ми розглядаємо, є діагональними (тобто всі коваріації дорівнюють 0), це те саме, що використовувати напіввизначеність. Тобто, якщо відхилення виглядатимуть як то кажучи - позитивно-напіввизначене (тобто ) - це точно те саме, що говорити і . Все здається гарним, поки ми не запровадимо коваріації. Розглянемо цей приклад:

V(x)=[V(x1)00V(x2)]V(y)=[V(y1)00V(y2)]
V(y)V(x)V(x)V(y)V(x1)V(y1)V(x2)V(y2)
V(x)=[10.10.11]V(y)=[1001]
Тепер, використовуючи порівняння, яке враховує лише діагоналі, ми би сказали , і, дійсно, досі вірно, що елемент за елементом . Що може почати нас турбувати, це те, що якщо ми обчислимо деяку зважену суму елементів векторів, наприклад та , то ми стикаємося з тим, що навіть якщо ми говоримо .V(x)V(y)V(xk)V(yk)3x1+2x23y1+2y2V(3x1+2x2)>V(3y1+2y2)V(x)V(y)

Це дивно, правда? Коли і є скалярами, то гарантує, що для будь-яких фіксованих, невипадкових , .xyV(x)V(y)aV(ax)V(ay)

Якщо з будь-якої причини нас цікавлять лінійні комбінації елементів випадкових змінних на кшталт цієї, то, можливо, ми хочемо посилити наше визначення для дисперсійних матриць. Можливо, ми хочемо сказати якщо і тільки якщо це правда, що , незалежно від того, які фіксовані числа та ми виберемо. Зауважте, це більш сильне визначення, ніж визначення, яке стосується лише діагоналей, оскільки якщо ми вибираємо воно говорить , а якщо ми вибираємо воно говорить .V(x)V(y)V(a1x1+a2x2)V(a1y1+a2y2)a1a2a1=1,a2=0V(x1)V(y1)a1=0,a2=1V(x2)V(y2)

Це друге визначення, те, що говорить тоді і тільки тоді, коли для кожного можливого нерухомого вектора , є звичайним методом порівняння дисперсії матриці на основі позитивної : Подивіться на останній вираз та визначення додатного напіввизначеного, щоб побачити, що визначення для дисперсійних матриць вибрано саме так, щоб гарантувати, що тоді і тільки тоді, коли для будь-якого вибору , тобто коли є позитивною напів -дефініт.V(x)V(y)V(ax)V(ay)a

V(ay)V(ax)=aV(x)aaV(y)a=a(V(x)V(y))a
V(x)V(y)V(ax)V(ay)a(V(y)V(x))

Отже, відповідь на ваше запитання полягає в тому, що люди кажуть, що дисперсійна матриця є меншою, ніж дисперсійна матриця якщо позитивно напіввизначена, оскільки їм цікаво порівняти дисперсії лінійних комбінацій елементів базових випадкових векторів. Яке визначення вибираєте, випливає з того, що вам цікаво в обчисленні, і як це визначення допомагає вам у цих розрахунках.VWWV

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.