Гігантський куртоз?


10

Я веду деяку описову статистику щоденних прибутків фондових індексів. Тобто, якщо і - рівні індексу на 1 день та 2 день відповідно, то - це повернення, яке я використовую (повністю стандартне в літературі).P 2 l o g e ( P 2П1П2логе(П2П1)

Тож куртоз у деяких із них величезний. Я переглядаю приблизно 15 років щоденних даних (тобто приблизно спостережень за часовими серіями)26015

                      means     sds     mins    maxs     skews     kurts
ARGENTINA          -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA             0.00003 0.00640 -0.03845 0.04621   0.19614   2.36104
CZECH.REPUBLIC      0.00008 0.00800 -0.08289 0.05236  -0.16920   5.73205
FINLAND             0.00005 0.00639 -0.03845 0.04622   0.19038   2.37008
HUNGARY            -0.00019 0.00880 -0.06301 0.05208  -0.10580   4.20463
IRELAND             0.00003 0.00641 -0.03842 0.04621   0.18937   2.35043
ROMANIA            -0.00041 0.00789 -0.14877 0.09353  -1.73314  44.87401
SWEDEN              0.00004 0.00766 -0.03552 0.05537   0.22299   3.52373
UNITED.KINGDOM      0.00001 0.00587 -0.03918 0.04473  -0.03052   4.23236
                   -0.00007 0.00745 -0.09124 0.06405  -1.82381  63.20596
AUSTRALIA           0.00009 0.00861 -0.08831 0.06702  -0.74937  11.80784
CHINA              -0.00002 0.00072 -0.40623 0.02031   6.26896 175.49667
HONG.KONG           0.00000 0.00031 -0.00237 0.00627   2.73415  56.18331
INDIA              -0.00011 0.00336 -0.03613 0.03063  -0.22301  10.12893
INDONESIA          -0.00031 0.01672 -0.24295 0.19268  -2.09577  54.57710
JAPAN               0.00008 0.00709 -0.03563 0.06591   0.57126   5.16182
MALAYSIA           -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665

Моє запитання: чи є якась проблема?

Я хочу зробити обширний аналіз часових рядів щодо цих даних - OLS та квантильний регресійний аналіз, а також причинності Грейнджера.

Як моя відповідь (залежна), так і предиктор (регресор) матимуть цю властивість гігантського куртозу. Тож у мене будуть ці процеси повернення по обидві сторони рівняння регресії. Якщо ненормальність перекинеться на порушення, які лише зроблять мої стандартні помилки високою дисперсією, чи не так?

(Можливо, мені потрібна міцна завантажувальна косичка?)


3
1) Ви можете перенести це на сайт Quant.stackexchange.com. 2) Що ви розумієте під проблемою? Існує ціла література про вплив чужих людей на моменти. Часто це може бути більше мистецтвом, ніж наукою.
Іван

2
"Чи є якась проблема?" занадто розпливчастий. Що ви хочете зробити з цими даними? Ваші величезні куртози асоціюються з величезним лівим перекосом. Оскільки log (p2 / p1) = log p2 - log p1, величезний лівий перекіс вказує на те, що було кілька разів, коли це було дуже низько, тобто p1 набагато вище p2, порівняно зі звичайним випадком. Можливо, компанія збанкрутує чи щось подібне.
Пітер Флом

Вибачте з цього приводу - я змінив свій ОП.

1
журнали-повернення, як правило, перекошені і важко хвостові. З цієї причини бажано розглянути гнучкі дистрибутиви, які можуть фіксувати таку поведінку. Див. Наприклад 1 і 2 .

Ви повинні подивитися на заходи кутозу на основі L-моментів
kjetil b halvorsen

Відповіді:


2

Погляньте на важкі хвости Lambert W x F або перекошені розподіли Lambert W x F, спробуйте (відмова: я автор). У R вони реалізовані в пакеті LambertW .

Схожі повідомлення:

Одна перевага перед розподілом Коші або студента-t з фіксованим ступенем свободи полягає в тому, що хвостові параметри можна оцінити за даними - так ви можете дозволити даним визначати, які моменти існують. Крім того, рамка Lambert W x F дозволяє трансформувати ваші дані та видаляти косості / важкі хвости. Itt Важливо відзначити , однак , що МНК не вимагає нормальності або . Однак для вашого EDA це, можливо, варто.XуХ

Ось приклад оцінок Ламберта Ш х Гаусса, застосованих до фондоозброєності.

library(fEcofin)
ret <- ts(equityFunds[, -1] * 100)
plot(ret)

Фонди власного капіталу графіку часових рядів

Зведені показники повернень схожі (не настільки екстремальні), як у публікації ОП.

data_metrics <- function(x) {
  c(mean = mean(x), sd = sd(x), min = min(x), max = max(x), 
    skewness = skewness(x), kurtosis = kurtosis(x))
}
ret.metrics <- t(apply(ret, 2, data_metrics))
ret.metrics

##          mean    sd    min   max skewness kurtosis
## EASTEU 0.1300 1.538 -18.42 12.38   -1.855    28.95
## LATAM  0.1206 1.468  -6.06  5.66   -0.434     4.21
## CHINA  0.0864 0.911  -4.71  4.27   -0.322     5.42
## INDIA  0.1515 1.502 -12.72 14.05   -0.505    15.22
## ENERGY 0.0997 1.187  -5.00  5.02   -0.271     4.48
## MINING 0.1315 1.394  -7.72  5.69   -0.692     5.64
## GOLD   0.1098 1.855 -10.14  6.99   -0.350     5.11
## WATER  0.0628 0.748  -5.07  3.72   -0.405     6.08

Більшість серій демонструють чітко ненормальні характеристики (сильне перекошеність та / або великий куртоз). Давайте Гауссіанізуємо кожну серію, використовуючи важкий хвостовий розподіл Ламберта W x Гаусса (= h Tukey's h), використовуючи методи оцінки моментів ( IGMM).

library(LambertW)
ret.gauss <- Gaussianize(ret, type = "h", method = "IGMM")
colnames(ret.gauss) <- gsub(".X", "", colnames(ret.gauss))

plot(ts(ret.gauss))

Сюжет часових рядів Гауссіанізованих повернень

Діаграми часового ряду показують набагато менше хвостів, а також більш стабільні зміни в часі (хоча не постійні). Знову обчислюючи показники за результатами гауссіанізованого часового ряду:

ret.gauss.metrics <- t(apply(ret.gauss, 2, data_metrics))
ret.gauss.metrics

##          mean    sd   min  max skewness kurtosis
## EASTEU 0.1663 0.962 -3.50 3.46   -0.193        3
## LATAM  0.1371 1.279 -3.91 3.93   -0.253        3
## CHINA  0.0933 0.734 -2.32 2.36   -0.102        3
## INDIA  0.1819 1.002 -3.35 3.78   -0.193        3
## ENERGY 0.1088 1.006 -3.03 3.18   -0.144        3
## MINING 0.1610 1.109 -3.55 3.34   -0.298        3
## GOLD   0.1241 1.537 -5.15 4.48   -0.123        3
## WATER  0.0704 0.607 -2.17 2.02   -0.157        3

IGMM3Gaussianize()scale()

Проста двоваріантна регресія

rЕАSТЕU,тrЯNDЯА,т

layout(matrix(1:2, ncol = 2, byrow = TRUE))
plot(ret[, "INDIA"], ret[, "EASTEU"])
grid()
plot(ret.gauss[, "INDIA"], ret.gauss[, "EASTEU"])
grid()

розсіювач Індії та Східного регіону

Лівий розсіювач оригінальної серії свідчить про те, що сильні люди, що пережили, не відбувалися в ті самі дні, а в різний час в Індії та Європі; крім цього не зрозуміло, чи хмара даних у центрі не підтримує кореляції чи негативної / позитивної залежності. Оскільки люди, що втрачають чужий сильний вплив, оцінюють дисперсію та кореляцію, варто дивитись на залежність із видаленими важкими хвостами (правий розсіювач). Тут закономірності набагато чіткіші, і позитивний зв'язок між Індією та ринком Східної Європи стає очевидним.

# try these models on your own
mod <- lm(EASTEU ~ INDIA * CHINA, data = ret)
mod.robust <- rlm(EASTEU ~ INDIA, data = ret)
mod.gauss <- lm(EASTEU ~ INDIA, data = ret.gauss)

summary(mod)
summary(mod.robust)
summary(mod.gauss)

Причинність Грейнджера

VАR(5)p=5

library(vars)  
mod.vars <- vars::VAR(ret[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars, "INDIA")$Granger


## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars
## F-Test = 3, df1 = 5, df2 = 3000, p-value = 0.02

causality(mod.vars, "EASTEU")$Granger
## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars
## F-Test = 4, df1 = 5, df2 = 3000, p-value = 0.003

Однак для даних Гауссіанізована відповідь різна! Тут тест може НЕ відкинути H0 , що «Індія зовсім НЕ Грейнжер EASTEU», але по- як і раніше відкидає , що «EASTEU НЕ Грейнжер INDIA». Тож гауссіанізовані дані підтверджують гіпотезу, що європейські ринки керують ринками Індії на наступний день.

mod.vars.gauss <- vars::VAR(ret.gauss[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars.gauss, "INDIA")$Granger

## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars.gauss
## F-Test = 0.8, df1 = 5, df2 = 3000, p-value = 0.5

causality(mod.vars.gauss, "EASTEU")$Granger

## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars.gauss
## F-Test = 2, df1 = 5, df2 = 3000, p-value = 0.06

VАR(5)


1

Необхідна модель розподілу ймовірностей, яка краще відповідає даних. Іноді визначених моментів немає. Одним із таких розподілів є розподіл Коші. Хоча розподіл Коші має медіану як очікувану величину, немає стабільної середньої величини та стабільних вищих моментів. Це означає, що коли збираються дані, з'являються фактичні вимірювання, які виглядають як інші, але є фактичними вимірами. Наприклад, якщо є два нормальних розподілу F і G, середній нуль і один ділить F / G, результат не матиме першого моменту і є розподілом Коші. Тож ми із задоволенням збираємо дані, і це виглядає нормально, як 5,3,9,6,2,4, і ми обчислюємо середнє значення, яке виглядає стабільним, і раптом ми отримуємо значення -32739876, і наше середнє значення стає безглуздим, але зауважте, медіана 4, стабільна. Таке воно є з довгохвостими розподілами.

Редагувати: Ви можете спробувати t-розподіл студента з двома ступенями свободи. Цей розподіл має довші хвости, ніж у нормального розподілу, косостість і куртоз нестійкі ( Sic , не існує), але середнє значення та дисперсія визначені, тобто є стабільними.

Наступна редакція: Однією з можливостей може бути використання регресії Теїла. У всякому разі, це думка, адже Теїл буде добре працювати незалежно від того, як виглядають хвости. Вони можуть бути виконані MLR (множинна лінійна регресія за допомогою серединних нахилів). Я ніколи не робив Theil для встановлення даних гістограми. Але я зробив Теїла з варіантом джекніфа, щоб встановити інтервали довіри. Перевага цього полягає в тому, що Теїлу не важливо, які форми розподілу є, і відповіді, як правило, менш упереджені, ніж у OLS, оскільки, як правило, OLS використовується, коли є проблематична незалежна дисперсія осі. Не те, що Теїл абсолютно непідвласний, це середній схил. Відповіді також мають різний зміст, він знаходить кращу згоду між залежною та незалежною змінними, коли OLS знаходить найменший прогноз помилок залежної змінної,


2
Приємна інформація, дякую. Чи знаєте ви деякі (досить компактні) ресурси, щоб прочитати далі? У мене зовсім інша проблема з довгим хвостом, але я думаю, що мої дані - це лише сумісний розподіл різних сценаріїв.
flaschenpost

Я використовую Mathematica, і пристосування дистрибутивів, а також визначення дистрибутивів наскрізь не складно для цієї мови. Наприклад, подивіться на це . Взагалі випадкові величини додаються згорткою, але на практиці згортання функцій щільності є складним. Деякі люди просто детально визначають функції щільності для змішаних змінних, наприклад додаючи легкий експоненціальний хвіст до цензурованого більш важкого розподілу гами після максимального значення для моделювання частоти землетрусів. @flaschenpost
Карл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.