Кореляція між двома змінними неоднакового розміру


9

У проблемі, над якою я працюю, у мене є дві випадкові величини, X і Y. Мені потрібно розібратися, наскільки тісно співвідносяться вони, але вони мають різні виміри. Ранг простору рядків X становить 4350, а ранговий простір рядків Y суттєво більший у десятках тисяч. І X, і Y мають однакову кількість стовпців.

Мені потрібна міра кореляції між двома змінними, і R Пірсона вимагає, щоб X і Y мали однаковий розмір (принаймні R вимагає, щоб два rv були).

Чи є у мене сподівання зробити співвідношення між цими двома, чи мені слід знайти якийсь спосіб обрізання спостережень від Y?

 EDIT

Додавання інформації з коментарів, яка повинна бути в питанні.

Я вважаю, що забув згадати про це. X і Y - ціни акцій. Компанія X є публічною протягом набагато коротшого періоду часу, ніж Y. Я хотів розповісти, наскільки співвідносні ціни X і Y. Я міг би напевно отримати кореляцію за період часу, що існують і X, і Y. Мені хотілося знати, якщо знання цін на акції протягом кількох додаткових років Y, що X не існує, не дало мені додаткової інформації.


2
Це не здається, що у вас є спостереження (або "випадки"), за якими ви спостерігаєте як реалізацію X, так і Y. Як ви дізнаєтеся, який X пов'язаний з яким Y?
Стефан Коласа

1
Я вважаю, що забув згадати про це. X і Y - ціни акцій. Компанія X є публічною протягом набагато коротшого періоду часу, ніж Y. Я хотів розповісти, наскільки співвідносні ціни X і Y. Я міг би напевно отримати кореляцію за період часу, що існують і X, і Y. Мені хотілося знати, якщо знання цін на акції протягом кількох додаткових років Y, що X не існує, не дало мені додаткової інформації.
Крістофер Аден

2
@Christopher Я рекомендую вам оновити своє запитання, щоб відобразити ваш вище коментар. Крім того, щоб кореляція була значимою, потрібно більше, ніж просто рівні розміри; фактичні вимірювання повинні відбуватися з тих самих випадків, які, мабуть, є однаковими часовими точками.
Джеромі Англім

2
Я другий зауважую Джеромі щодо оновлення питання ...
Стефан Коласа

Ще одне питання: ви згадуєте, що X і Y мають однакову кількість стовпців. Це був би один? Або у вас є кілька серій як для X, так і для Y (ціни на різних фондових біржах або деякі подібні)?
Стефан Коласа

Відповіді:


10

Жодна кількість імпутацій, аналіз часових рядів, моделей GARCH, інтерполяція, екстраполяція чи інші химерні алгоритми не зроблять нічого для створення інформації там, де її немає (хоча вони можуть створити цю ілюзію ;-). Історія ціни Y перед тим, як X оприлюднити, марно оцінювати їх подальше співвідношення.

Іноді (часто підготовчі до IPO) аналітики використовують внутрішню бухгалтерську інформацію (або записи приватних операцій з акціями) для ретроспективної реконструкції гіпотетичних цін на акції X, перш ніж вони опублікуються. Можливо, така інформація могла б бути використана для підвищення оцінок кореляції, але, враховуючи надзвичайно орієнтовний характер таких зворотних передач, я сумніваюся, що ці зусилля допоможуть вам, за винятком випадків, коли ціни на X доступні лише за кілька днів або тижнів.


Уточнення: я не згадував GARCH для вирішення проблеми, що відсутня (що, звичайно, не має сенсу) - але для вдосконалення на простому обчисленні кореляції між тимчасовим рядом у часи, коли обидва існують.
Стефан Коласа

@Stephan: Гаразд. Я згадав це головним чином, щоб показати, що я вас не ігнорував!
whuber

1
Дякую, джоубер. Це відповідає тому, що я шукав. Я не думаю, що трансляція буде корисною (або здійсненною), щоб додати пару додаткових тижнів X, коли взаємний часовий проміжок між X і Y вже близько 16 років.
Крістофер Аден

2
@Christopher: !! З 16 років (щоденного закриття?) У вас є достатня кількість даних не тільки для того, щоб знайти кореляцію, але і вивчити, як це змінюється з часом. (Це, на мій погляд, дух відповіді @Stephan Kolassa.)
whuber

Я згоден. Використання методів для визначення того, які значення приймав би X до початку IPO, схоже на помилки. Я також можу поставити під сумнів актуальність даних, яким 16 років для прогнозування сучасних тенденцій.
Крістофер Аден

10

Таким чином, проблема є однією з відсутніх даних (не всі Y мають відповідні X, де кореспонденція функціонує через часові точки). Я не думаю, що тут багато чого робити, ніж просто викинути Y, у якого ти не маєш X, та обчислити кореляцію на повних парах.

Ви можете прочитати про фінансові часові ряди, хоча у мене в даний момент немає хорошої довідки (ідеї, хто?). Ціни на акції часто виявляють мінливі часові коливання, які можна моделювати, наприклад, за допомогою GARCH . Цілком можливо, що ваші два часові ряди X і Y виявляють позитивні кореляції в періоди низької волатильності (коли економіка зростає, всі ціни на акції мають тенденцію до зростання), але негативні кореляції, коли загальна волатильність висока (11 вересня, авіакомпанії, що танкують, поки гроші тікали на безпечніші інвестиції). Тому просто обчислення загальної кореляції може бути занадто залежним від ваших часових рамків спостереження.

ОНОВЛЕННЯ: Я думаю, ви можете подивитися на VAR (векторні авторегресивні) моделі.


Для базових посилань фінансових часових рядів, ви можете побачити мій відповідь тут: stats.stackexchange.com/questions/328 / ... . Текст Цая - один з найпопулярніших.
Шейн

2

@Jeromy Anglim вказав це правильно. Наявність додаткової інформації, коли існував лише один із часових рядів, не дало б тут ніякої цінності. І в принципі, дані повинні бути вибірені одночасно, щоб вони були значимими, використовуючи звичайні кореляційні заходи.

Як більш загальну проблему я додам, що існують методи поводження з нерегулярно розташованими даними часових рядів. Ви можете шукати "кореляцію нерегулярно розташованих часових рядів". Деякі з останніх робіт були проведені над "Реалізованою мінливістю та кореляцією" (Андерсен, Боллерслев, Діельд та Лабіс 1999), використовуючи високочастотні дані.


1

З огляду на додаткову інформацію у ваших коментарях, я рекомендую переглянути два співвідношення. Перший - це загальні часові періоди, коли компанії обидва були. Отже, якщо б це було приблизно на 2 роки раніше, ви просто скинете ці дані і подивіться на решту. Другим буде відносні часові періоди. У другому ви не співвідносите фактичний час, а час, виміряний з моменту оприлюднення компанії.

На перших буде сильно впливати загальна економічна сила, яка ділиться за той же період часу. На останнє впливатимуть властивості, якими поділяються компанії під час зміни після IPO.


0

Інший спосіб вирішити таку проблему - імпульсувати відсутні дані для коротших серій за допомогою моделі часових рядів, яка може або не може мати сенсу в конкретному контексті.

У вашому контексті імпульс цін на акції в минуле означатиме, що ви задаєте наступне фактичне запитання: Якою була б ціна акцій для компанії X, якби вона оприлюднила n років у минулому, а не тоді, коли вона насправді стала публічною? Така імпотація даних потенційно може бути здійснена, беручи до уваги ціни на акції пов’язаних компаній, загальні тенденції на ринку тощо. Але такий аналіз може не мати сенсу або не потрібен з огляду на цілі вашого проекту.


0

Ну багато що залежить від ваших припущень. Якщо ви вважаєте, що дані стаціонарні, то більше даних для першої серії дасть вам більш високу оцінку її мінливості. Ця оцінка може бути використана для покращення кореляційної оцінки. Отже, наступний опис невірний:

"Історія ціни Y до того, як X опублікувала, є марною для оцінки їх подальшої кореляції"


Я думав про це. Теоретично це може спрацювати, але буде дуже нерозумно, тому краще уникати.
kjetil b halvorsen

-1

Це звучить як проблема алгоритму машинного навчання. Тому я б спробував розібратися в наборі особливостей, які описують певний аспект тренду і тренуватися на цьому. Вся теорія машинного навчання для цього відповіді трохи складна, але вам було б корисно прочитати її.

Але чесно кажучи, я думаю, що це вже існує. Там, де можна заробити гроші, люди вкладають у це свою думку.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.