Інтуїція / інтерпретація розподілу власних значень кореляційної матриці?


13

Яка ваша інтуїція / інтерпретація розподілу власних значень кореляційної матриці? Я, як правило, чую, що зазвичай 3 найбільші власні значення є найважливішими, тоді як ті, близькі до нуля, - це шум. Крім того, я бачив декілька наукових робіт, які досліджують, як природні розподіли власних значень відрізняються від розрахованих за матрицями випадкової кореляції (знову ж таки, відрізняючи шум від сигналу).

Будь ласка, не соромтеся детальніше розглянути свої уявлення.


Чи маєте ви на увазі якусь конкретну програму, тобто ви шукаєте загальних порад про те, скільки ЕВ нам потрібно врахувати, крім будь-якої програми (тобто з чисто математичної сторони), чи вона повинна застосовуватися до конкретного контексту (наприклад, факторний аналіз, PCA тощо)?
chl

Мене більше цікавить математична сторона, тобто власні значення як властивість даних, що лежать в основі матриці кореляції. Якщо це має сенс обговорювати це з точки зору конкретного контексту, сміливо це робіть і ви.
Едуардас

Відповіді:


4

Я, як правило, чую, що зазвичай 3 найбільші власні значення є найважливішими, тоді як ті, близькі до нуля, - шум

Ви можете протестувати на це. Докладніше дивіться у папері, пов’язаному в цій публікації. Знову ж таки, якщо ви маєте справу з серіями фінансових періодів, ви, можливо, спершу хочете виправити лептокуртичність (тобто врахуйте серію прибутків, скоригованих на garch, а не необроблені прибутки).

Я бачив декілька наукових робіт, які досліджують, чим природно виникаючі власні значення розподілу відрізняються від розрахованих за матрицями випадкової кореляції (знову ж таки, відрізняючи шум від сигналу).

Едвард:> Зазвичай, це можна зробити і навпаки: подивіться на багатоваріантний розподіл власних значень (кореляційних матриць), що надходять із потрібної програми. Після того, як ви визначили надійного кандидата на розповсюдження власних цінностей, їх генерувати досить легко.

Найкраща процедура того, як визначити багатоваріантний розподіл власних значень, залежить від того, скільки активів ви хочете врахувати одночасно (тобто які розміри вашої кореляційної матриці). Існує акуратний трюк, якщо ( p - кількість активів).p10p

Редагувати (коментарі Shabbychef)

чотиришарова процедура:

  1. Припустимо , у вас є підразки багатоваріантних даних. Вам потрібен оцінювач дисперсійно-коваріаційної матриці ˜ C j для кожної підпроби j (ви можете використовувати класичний оцінювач або надійну альтернативу, таку як швидкий MCD , який добре реалізований у matlab, SAS, S, R ,. ..). Як завжди, якщо ви маєте справу з серіями фінансових періодів, ви б хотіли врахувати серію прибутків, скоригованих на garch, а не необроблені.j=1,...,JС~jj
  2. Для кожного підрозділу обчисліть ˜ Λ j = log ( ˜ λ j 1 ) , ..., log ( ˜ λ j p ) , власні значення ˜ C j .jΛ~j= журнал(λ~1j)журнал(λ~pj)С~j
  3. Обчисліть , опуклий корпус матриці J × p , j-й запис якого ˜ Λ j (знову ж таки, це добре реалізовано в Matlab, R, ...).СV(Λ~)J×pΛ~j
  4. Намалюйте навмання точки зсередини (це робиться шляхом додавання ваги w i до кожного з ребер C V ( ˜ Λ ), де w i = γ iСV(Λ~)шiСV(Λ~) , деγi- виведення з одиничного експоненціального розподілу (детальнішетут).шi=γii=1pγiγi

Обмеженням є те, що швидке обчислення опуклого корпусу ряду точок стає надзвичайно повільним, коли кількість розмірів більше 10. J2


1
Мені цікаво: у чому фокус?
shabbychef

Ви маєте в виду власні вектори про в 3? не значення ? С~
shabbychef

немає. - скаляр. λ1
user603

Це дуже дивна процедура; це було десь опубліковано?
shabbychef

@Shabbychev:> ні, але я мав можливість попрацювати над пов’язаною проблемою (тільки не одна, що стосується часових рядів) деякий час тому (така ж проблема, як і ця stats.stackexchange.com/questions/2572/… )
user603

11

Власні значення дають величини принципових компонентів поширення даних.


(джерело: yaroslavvb.com )
Перший набір даних був сформований з Гауссана з коваріаційною матрицею (3001)другий набір даних - це перший набір даних, повернутий наπ/4


2

к

Зазвичай перший власний портфель майже однаково зважується на кожне найменування, тобто «ринковий» портфель, що складається з усіх активів з однаковою вагою у доларах. Другий власний портфоліо може мати певне семантичне значення, залежно від того, який часовий період ви переглядаєте: наприклад, переважно запаси енергії, або банківські акції тощо. На мій досвід, ви б сильно наполягали на тому, щоб зробити будь-яку історію з п’ятого власного портфеля чи за його межами, і це залежить від деякої частини вибору Всесвіту та розглянутого періоду часу. Це просто чудово, тому що зазвичай п'ята власна цінність або близько того не надто далеко за межі, встановлені розподілом Марченко-Пастур.


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.