Метод генерації корельованих ненормальних даних


14

Мені цікаво дізнатись спосіб генерації корельованих, ненормальних даних. Тому в ідеалі якийсь розподіл, який приймає коваріаційну (або кореляційну) матрицю як параметр і генерує дані, які її наближають. Але ось ось у чому: метод, який я намагаюся знайти, повинен мати гнучкість також контролювати його багатоваріантність косості та / або куртозу.

Мені знайомий метод Флейшмана та використання методу потужності нормальних змінних, але я вважаю, що більшість цих розширень дозволяють користувачеві лише певних комбінацій граничної косості та куртозу, залишаючи багатоваріантну косисть / куртоз просто там. Мені було цікаво, чи існує метод, який допомагає визначити багатоваріантність косості та / або куртозу, поряд із деякою структурою кореляції / коваріації.

Близько року тому я взяв семінар з розподілу копули, і я пам’ятаю, що професор випадково зазначив, що завдяки використанню копул виноградної лози можна було генерувати дані, які, скажімо, симетричні у кожному з його 1-D маргіналів, але спільно перекошені та пороки -верса. Або, ще більше, що будь-які нижньомірні межі можуть мати деяку косисть або куртоз, зберігаючи найвищі розміри симетричними (чи ні). Мене здивувала думка, що така гнучкість може існувати. Я намагався знайти якийсь статтю чи конференцію, в якій описується зазначений метод, але я був невдалий :(. Це не повинно бути через використання копул, Я відкритий до всього, що працює.

Редагувати: Я додав код R, щоб спробувати показати, що я маю на увазі. Поки я лише добре знайомий з визначенням Мардії щодо багатоваріантної косості та куртозу. Коли я вперше підійшов до своєї проблеми, я наївно подумав, що якби я використовував симетричну копулу (в даному випадку Гаусса) із перекошеними маргіналами (бета, у цьому прикладі), одновимірні тести на маргіналах отримають значення, але тест Мардії на мультиварітну косоту / куртоз бути несуттєвими. Я спробував це, і не вийшло так, як я очікував:

library(copula)
library(psych)
set.seed(101)

cop1 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("beta", "beta"),list(list(shape1=0.5, shape2=5), 
            list(shape1=0.5, shape2=5)))}

            Q1 <- rmvdc(cop1, 1000)
            x1 <- Q1[,1]
            y1 <- Q1[,2]


cop2 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("norm", "norm"),list(list(mean=0, sd=1), 
            list(mean = 0, sd=1)))}

            Q2 <- rmvdc(cop2, 1000)
            x2 <- Q2[,1]
            y2 <- Q2[,2]

mardia(Q1)  

Call: mardia(x = Q1)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  10.33   skew =  1720.98  with probability =  0
small sample skew =  1729.6  with probability =  0
b2p =  22.59   kurtosis =  57.68  with probability =  0

mardia(Q2)
Call: mardia(x = Q2)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  0.01   skew =  0.92  with probability =  0.92
 small sample skew =  0.92  with probability =  0.92
b2p =  7.8   kurtosis =  -0.79  with probability =  0.43

Оглядаючи контури 'cop1' VS 'cop2', а також емпіричні двовимірні графіки щільності, я також можу побачити, що жоден з них зовсім не виглядає симетричним. Ось тоді я зрозумів, що це, мабуть, трохи складніше, ніж я думав.

Я знаю, що Мардія - не єдине визначення багатоваріантної косості / куртозу, тому я не обмежую себе пошуком методу, який задовольняє лише визначення Мардії.

Дякую!


+1 Найцікавіше запитання. Чи можете ви бути більш конкретними щодо того, що означає «спільно перекошений» в даному контексті (особливо двозначний)? Хоча я можу уявити форми спільного розподілу, які певним чином «відрізняються» у чотирьох квадрантах (скажімо, про осі, розміщені на засобах), я не знайомий з тим, що конкретно може стосуватися «спільно косий».
Glen_b -Встановити Моніку

expХХ

Привіт. дуже дякую, що зацікавились моїм запитанням. це перший раз, коли я публікую тут повідомлення, тож сподіваюся, що я все роблю правильно. я детальніше зупинюсь на розділі коментарів, оскільки обмеження символів заважає мені використовувати код R, щоб спробувати передати те, що я роблю
S. Punky

так, я просто зрозумів це і додав більше деталей. я вдячний, що ви знайшли час, щоб провести мене, як користуватися цією дошкою. Спасибі!
S. Punky

" не обмежуючи себе у пошуку методу, який задовольняє лише визначення Мардії " - метод робити що?
Glen_b -Встановіть Моніку

Відповіді:


3

Після довгих пошуків, стрибаючи навколо інтернет - форуми, консультації з викладачами та робити багато огляду літератури, я прийшов до висновку , що , ймовірно , єдиний спосіб вирішення цієї проблеми лежить через використання зв'язках лози дійсно. Це дає вам деякий контроль над попарною косою і куртозом (або будь-якими вищими моментами) - для випадкового вектора p-змінної та свободою задавати пару копул p-1 та решту p * (p-1) / 2 - ( p-1) розміри можна вказати в якійсь умовної копулі.

Я вітаю інші методи, які люди, можливо, натрапили, але, принаймні, я збираюся залишити цей покажчик на відповідь, тому що я не можу за все життя знайти інших способів вирішити це питання.


2
Що таке виноградна копула?
Секст Емпірік

1

Ви можете вирішити це шляхом зміни алгоритму Русіо та Качетова (2008). Їхній документ пропонує ітераційний алгоритм (з кодом R), який мінімізує різницю між фактичною та передбачуваною граничними формами. Можливо, ви зможете змінити його так, щоб націлювати його на багатоваріантні (а не граничні) моменти.

Ruscio, J., & Kaczetow, W. (2008). Моделювання багатоваріантних ненормальних даних за допомогою ітеративного алгоритму. Багатовимірне поведінкове дослідження, 43 (3), 355–381. doi: 10.1080 / 00273170802285693


О БОЖЕ МІЙ! ДЯКУЮ! Я на мить подумав, що це питання просто проковтнеться у небуття
С. Панкі

1
добре ... я переглянув статтю Ruscio & Kaczetow (2008). на жаль, це просто ще одна (але більш гнучка) реалізація сімейства алгоритмів NORTA (NORmal To Anything), яка, як відомо, не працює добре з багатовимірними 3-м та 4-м моментами. я здогадуюсь, я повернусь до квадратного на цьому.
S. Punky

0

Ви можете перевірити Узагальнений еліптичний розподіл , який дозволяє мати "класичну" матрицю форми з гнучкістю для інших функцій.


Дякую! Я обов’язково перевіряю це посилання. Чи не є еліптичні розподіли симетричними? Отже, можна контролювати куртоз, але косисть повинна залишатися на рівні 0?
S. Punky

Звичайно, але GE не означає, що це еліптично. Для деяких еліптичних варіацій перекосу також ознайомтесь тут: stat.tamu.edu/~genton/STAT689/TAMU2009SE.pdf
Кварц

0

Я придумав простий метод для цього, який не передбачає копла та інших складних конструкцій. Боюся, я не маю жодної офіційної довідки, хоча метод виявляється високоефективним.

Ідея проста. 1. Намалюйте будь-яку кількість змінних із спільного нормального розподілу. 2. Застосовуйте однофазний нормальний CDF змінних для отримання ймовірностей для кожної змінної. 3. Нарешті застосуйте зворотний CDF будь-якого розподілу, щоб імітувати малюнки з цього розподілу.

Я придумав цей метод у 2012 році і продемонстрував, використовуючи Stata . Я також написав недавній пост , який показує один і той же метод з використанням R .


(1) Що таке "нормальний розподіл Спірмена"? (2) Яку різницю ви робите, якщо така є, між CDF та "нормальним CDF"? (3) Чи можете ви пояснити, як цей метод взагалі вносить будь-яку кореляцію? Я боюся, що ваші загальні способи використання "змінної" та "розповсюдження" роблять ваш опис досить невиразним, тому важко сказати, що це насправді. Чи можете ви переформулювати свою відповідь, щоб бути точнішою?
whuber

дякую за ваш пост! Перейшовши за посиланнями, ви можете побачити більше інформації про метод. він не зовсім робить те, чого я сподівався досягти (тобто контроль над вищими розмірами, моменти розподілу), але все-таки дуже цінний підхід.
S. Punky

1
Не дивно, що я не придумав новий метод див.: Каріо, Марн К., Баррі Л. Нельсон. Моделювання та генерація випадкових векторів з довільними граничними розподілами та кореляційною матрицею. Технічний звіт, кафедра промислових інженерних та управлінських наук, Північно-Західний університет, Еванстон, штат Іллінойс, 1997. Яхав, Інбал та Галіт Шмуелі. "Про генерування багатовимірних даних про пуассона в наукових програмах управління". Роберт Х. Сміт Шкільний дослідний документ № RHS (2009): 06-085.
Френсіс Смарт

навіть якщо це не «новий метод», я все одно хотів би подякувати вам за те, що ви знайшли час, щоб розглянути моє запитання та додати щось проникливе :)
S. Punky,

0

Я вважаю, що метод, представлений у наступних статтях, дозволяє генерувати випадкові багатоваріанти з будь-якою (можливою) комбінацією середнього, дисперсії, косості та куртозу.

  1. Стенфілд, PM, Wilson, JR, і Маленький світ, GA 1996 Багатофакторне Input Моделювання з Джонсоном розподілами, Зусиллями зимової Simulation конференції 1996 , ред. Чарнес, Дж. М., Морріс, DJ, Бруннер, DT, і Свен, JJ, 1457-1464.
  2. Стенфілд, прем'єр-міністр, Вілсон, Дж. Р. та Кінг, RE 2004. Гнучке моделювання співвідносних строків роботи із застосуванням у засобах повторного використання продукції, Міжнародний журнал досліджень виробництва , т. 42, № 11, 2179–2196.

Відмова: Я не один з авторів.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.