Міра "дисперсії" від матриці коваріації?


17

Якщо дані дорівнюють 1d, дисперсія показує, наскільки точки даних відрізняються одна від одної. Якщо дані багатовимірні, ми отримаємо матрицю коваріації.

Чи є міра, яка дає єдине число того, чим точки даних відрізняються взагалі для багатовимірних даних?

Я вважаю, що може бути вже багато рішень, але я не впевнений, що правильно використовувати їх для пошуку.

Можливо, я можу зробити щось на кшталт додавання власних значень матриці коваріації, чи це звучить розумно?


2
Детермінант матриці коваріації. Я скоро опублікую більш точну відповідь.
user603

5
Траса використовується дуже часто. Наприклад, у PCA, фракція дисперсії, що пояснюється кожним компонентом, є часткою "загальної дисперсії", яка визначається як слід коваріаційної матриці. @ user603 Чекаємо на вашу відповідь.
амеба каже, що поверніть Моніку

2
adding up the eigenvalues of the covariance matrixдорівнює сліду амеби, згаданої вище.
ttnphns

Для чого / для чого буде застосовуватися захід?
HelloGoodbye

@HelloGoodbye Привіт, насправді у мене є деякі [галасливі] дані з мітками, і я заздалегідь припускаю, що пункти [правдиві] дані в одній категорії не повинні сильно відрізнятися. Я шукаю спосіб виміряти ступінь відмінностей точок даних у межах кожної категорії, щоб я міг уявити, наскільки галасливі дані для кожної категорії.
dontloo

Відповіді:


16

(Відповідь нижче лише вводить і констатує теорему, доведену в роботі [0]. Краса в цій роботі полягає в тому, що більшість аргументів викладені з точки зору основної лінійної алгебри. Для відповіді на це питання достатньо вказати основні результати, але загалом, перейдіть на перевірку першоджерела).

У будь-якій ситуації, коли багатоваріантний малюнок даних може бути описаний еліптичним розподілом змінної , статистичний висновок за визначенням зводиться до проблеми примірності (та характеристики) вектора розташування k змінних (скажімо, θ ) і k до k симетрична напівпозитивна визначена матриця (скажімо Σ ) до даних. З причин, які я пояснюю нижче (але які ви вже вважаєте за приміщення), часто буде більш доцільним розкласти Σ на компонент фігури (SPSD-матриця такого ж розміру, як Σ ), враховуючи форму контурів щільності вашого багатофакторного розподілу і скаляр σ SkkθkkΣΣΣσS виражаючи масштаб цих контурів.

У одновимірних даних ( ), Σ , матриця коваріації ваших даних є скалярною, і, як випливатиме з обговорення нижче, компонент форми Σ дорівнює 1, так що Σ дорівнює його масштабній складовій Σ = σ S завжди і ніякої неоднозначності неможливо.k=1ΣΣΣΣ=σS

У багатовимірних даних можливе багато варіантів масштабування функцій Один зокрема ( σ S = | ΣσS ) виділяється ключовою бажаною власністю. Це повинно зробити його кращим вибором коефіцієнта масштабування в контексті еліптичних сімей.σS=|ΣΣ|1/k


Багато проблем статистики МВ передбачають оцінку матриці розсіювання, визначеної як функція (al) симетричного напівпозитивного у R k × k і задовольняє:ΣRk×k

(для не сингулярних матриць A і векторів b ). Наприклад, класична оцінка коваріації задовольняє (0), але вона аж ніяк не єдина.

(0)Σ(AX+b)=AΣ(X)A
Ab

За наявності еліптичних розподілених даних, де всі контури щільності є еліпсами, визначеними однаковою матрицею форми, аж до множення на скаляр, природно розглядати нормовані версії форми:Σ

VS=Σ/S(Σ)

де - 1-гоногенна функція, що задовольняє:S

(1)S(λΣ)=λS(Σ)

для всіх . Потім, V S називається форма компонент матриці розсіювання (в короткій матриці форми) і σ S = S 1 / 2 ( Σ ) називається масштабний компонент матриці розсіювання. Приклади задач багатоваріантної оцінки, коли функція втрат залежить лише від Σ через компонент форми V S, включають тести сферичності, PCA та CCA серед інших.λ>0VSσS=S1/2(Σ)ΣVS

Звичайно, існує багато можливих функцій масштабування, тому це все ще залишає відкритим питання про те, що (якщо є) з декількох варіантів функції нормалізації в деякому сенсі є оптимальним. Наприклад:S

  • (наприклад, той, який запропонував @amoeba у своєму коментарі під питанням про ОП. Див. Також [1], [2], [3])S=tr(Σ)/k
  • ([4], [5], [6], [7], [8])S=|Σ|1/k
  • (перший запис матриці коваріації)Σ11
  • (перше власне значення Σ )λ1(Σ)Σ

Однак - єдина функція масштабування, для якої матриця інформації Фішера для відповідних оцінок масштабу та форми в локально асимптотично нормальних сімействах є діагональною блоком (тобто компоненти масштабу та форми задачі оцінки є асимптотично ортогональними) [0 ]. Це означає, серед іншого, що масштаб функціональний S = | Σ | 1 / K є єдиним вибором з S , для яких не специфікація сг S не викликає якийсь - або втрати ефективності при виконанні на висновок V S .S=|Σ|1/kS=|Σ|1/kSσSVS

Я не знаю жодної порівняно сильної характеристики оптимальності для будь-якого з безлічі можливих варіантів які задовольняють (1).S

  • [0] Paindaveine, D., Канонічне визначення форми, Статистика та ймовірнісні листи, Том 78, Випуск 14, 1 жовтня 2008 р., Сторінки 2240-2247. Необ’єднане посилання
  • [1] Дамбген, Л. (1998). Про М-функціонал Тайлера розсіювання у високих розмірах, Енн. Інст. Статист. Математика. 50, 471–491.
  • [2] Ollila, E., TP Hettmansperger, H. Oja (2004). Афіні еквівалентні багатоваріантні знакові методи. Препринт, Університет Юваскіла.
  • [3] Тайлер, DE (1983). Властивості стійкості та ефективності матриць розсіювання, Biometrika 70, 411–420.
  • [4] Дамбген, Л. та Д.Є. Тайлер (2005). Про властивості розбиття деяких багатоваріантних M-функціоналів, Scand. J. Statist. 32, 247–264.
  • [5] Холлін, М. та Д. Пейндавейн (2008). Оптимальні рангові тести на однорідність розсіювання, Енн. Статист., З'являтися.
  • [6] Салібіян-Баррера, М., С. Ван Аельст і Г. Віллемс (200 6). Аналіз основних компонентів на основі багатоваріантних ММ-оцінок із швидким та надійним завантажувальним пристроєм, Дж. Амер. Статист. Доц. 101, 1198–1211.
  • [7] Таскінен, С., К. Крю, А. Канкайнен, Е. Олліла та Х. О дже (2006). Функції впливу та ефективність канонічної кореляції та векторних оцінок на основі матриць розсіювання та форми, Ж. Багатоваріантний анал. 97, 359–384.
  • [8] Тацуока, К. С. та Д.Є. Тайлер (2000). Про унікальність S-функціоналів та М-функціоналів при ненеліптичних розподілах, Енн. Статист. 28, 1219–1243.

1
Також є дивним вибором для компонента масштабу, оскільки він не є інваріантним обертанням ...Σ11
Амеба каже, що повертається Моніка

Дякую за обдуману відповідь! мені знадобиться деякий час, щоб повністю зрозуміти це :)
dontloo

@amoeba: застосовано до XΣ . Я скидаю XXX в решті відповіді, тому що неможлива плутанина. Я згоден, це трохи незграбно, тому я зараз використовую Σ ( XXX . Я згоден з вашим другим коментарем. З тієї ж лексеми λ 1 ( Σ ) не інваріантний для масштабування. У цьому сенсі обмеження однорідності, розміщене на S, є дуже низькою смугою. Σ(XX)λ1(Σ)S
user603

Зачекайте; Чому б хотілося або очікувати, що компонент масштабу буде інваріантним до масштабування ??
амеба каже, що повернеться Моніка

Вибачте, я мав на увазі, якщо ви використовуєте в якості функції масштабування, то отримана матриця фігури не еквівалентна масштабуванню. λ1(Σ)
user603

11

Дисперсія скалярної змінної визначається як квадратичне відхилення змінної від її середнього:

Var(X)=E[(XE[X])2]

Одне узагальнення до скалярної дисперсії для випадкових величин, що оцінюються векторними, можна отримати, інтерпретуючи відхилення як евклідову відстань :

Vars(X)=E[XE[X]22]

Цей вираз можна переписати як

Vars(X)=E[(XE[X])(XE[X])]=E[i=1n(XiE[Xi])2]=i=1nE[(XiE[Xi])2]=i=1nVar(Xi)=i=1nCii

де - матриця коваріації. Нарешті, це можна спроститиC

Vars(X)=tr(C)

що є слідом коваріаційної матриці.


4

Хоча слід матриці коваріації, tr (C) , дає міру загальної дисперсії, вона не враховує кореляцію між змінними.

Якщо вам потрібна міра загальної дисперсії, яка велика, коли ваші змінні незалежні одна від одної, і дуже мала, коли змінні сильно корелюються, ви можете використовувати визначник матриці коваріації, | C | .

Будь ласка, дивіться цю статтю для кращого роз'яснення.


4

Якщо вам потрібно лише одне число, то я пропоную найбільше власне значення коваріаційної матриці. Це також є поясненою дисперсією першого основного компонента в PCA. Він говорить вам, скільки сумарної дисперсії можна пояснити, якщо зменшити розмірність вектора до одиниці. Дивіться цю відповідь на математиці SE.

Ідея полягає в тому, що ви згортаєте вектор на лише один вимір, поєднуючи всі змінні лінійно в одну серію. У вас виникає проблема 1d.

Пояснену дисперсію можна повідомити у% до загальної дисперсії. У цьому випадку ви відразу побачите, чи існує велика лінійна кореляція між серіями. У деяких програмах це число може бути 80% і вище, наприклад, моделювання кривої процентних ставок у фінансах. Це означає, що ви можете побудувати лінійну комбінацію змінних, яка пояснює 80 варіабельності всіх змінних.


3

Концепція ентропії з теорії інформації, схоже, відповідає цілі, як міра непередбачуваності інформаційного змісту, яку задає

Н(Х)=-p(х)журналp(х)гх.

Якщо припустити багатоваріантний розподіл Гаусса для p(х) із середнім значенням мк та коваріації ΣОтримані з даних, згідно з Вікіпедією , диференціальна ентропія є,

Н(Х)=12журнал((2πе)нdet(Σ))
де н- кількість розмірів. З тих пірmultivariate Gaussian is the distribution that maximizes the differential entropy for given covariance, this formula gives an entropy upper bound for an unknown distribution with a given variance.

І це залежить від визначника матриці коваріації, як пропонує @ user603.


Ця відповідь, схоже, не в такому ж дусі, як питання. Коваріації та дисперсії є властивостями будь-якого розподілу (хоча вони можуть бути нескінченними або невизначеними у деяких випадках), тоді як ця відповідь зосереджена на надзвичайно особливому випадку багатоваріантного нормального розподілу. Отже, це не стосується більшості ситуацій, які явно передбачені питанням. Не могли б ви пояснити, в якому сенсі ваша відповідь може бути розтлумачена як така, що дає корисні вказівки в загальному випадку, коли дані не обов'язково є нормальними?
whuber

@whuber спасибі за пропозицію, я здогадуюсь, можливо, мені слід переписати Гауссана як "розподіл, який максимально збільшує ентропію, задану дисперсією"? тоді результат стане деякою верхньою межею. що ти думаєш?
dontloo

Це звучить так, що це кудись корисне та загальне.
whuber

1
Я здогадуюсь, що існує багато способів зняти шкіру кота;). Я фактично річ, що зв’язок між вашою відповіддю та моєю дуже міцний . У мене є незначна каламбур; Я думаю, що детермінант має деяку властивість оптимальності для проблеми, яку ви намагаєтеся вирішити (і вибирати її не потрібно просто на основі ознайомлення), і я думаю, що ці властивості оптимальності виходять за межі матриць коваріації (вони справедливі для визначника того, який функціонал розсіювання ви не трапляєте) вибрали, а їх там багато) і виходять за рамки поширення Гаусса (на всю еліптичну родину).
user603
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.