Як правильно використовувати кореляцію Пірсона з часовими рядами


47

У мене є два часові ряди (обидва гладкі), які я хотів би перехресно співвіднести, щоб побачити, наскільки вони співвіднесені.

Я маю намір використовувати коефіцієнт кореляції Пірсона. Чи підходить це?

Моє друге питання - я можу вибрати вибірку двох часових рядів так само, як мені подобається. тобто я можу вибрати, скільки точок даних я буду нам. Чи вплине це на коефіцієнт кореляції, який виводиться? Чи потрібно мені це враховувати?

Для ілюстрації

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]  

1
Яка природа часових рядів? Вони випадковими ходами? Стаціонарний? Економічна серія?
Аксакал

Відповіді:


72

Кореляція Пірсона буде використовуватися , щоб подивитися на кореляції між серіями ... але , будучи тимчасової ряд кореляційний виглядає на різних лагів - в функції взаємної кореляції .

На перехресну кореляцію впливає залежність всередині ряду, тому в багатьох випадках залежність усередині ряду повинна бути усунена спочатку. Тому використовувати це співвідношення, а не згладжувати серії, насправді частіше (тому що це має сенс) дивитися на залежність між залишками - грубу частину, що залишається після того, як відповідна модель буде знайдена для змінних.

Ви, мабуть, хочете почати з деяких базових ресурсів на моделях часових рядів, перш ніж заглиблюватися в спробу розібратися, чи є інтерпретація кореляції Пірсона в (імовірно) нестаціонарній, згладженій серії.

Зокрема, ви , ймовірно , захочете поглянути на явища тут . [У часових рядах це іноді називають хибною кореляцією , хоча стаття Вікіпедії про хибну кореляцію має вузький погляд на використання терміна таким чином, який, здавалося б, виключає це використання цього терміна. Напевно ви дізнаєтесь більше про обговорювані тут проблеми, шукаючи натомість помилкову регресію .]

[Редагувати - пейзаж Вікіпедії постійно змінюється; зазначений вище п. певно, слід переглянути, щоб відобразити те, що є зараз.]

наприклад, дивіться деякі дискусії

  1. http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (вступна цитата Юля в документі, представленому в 1925 році, опублікованому в наступному році, досить добре узагальнена проблема)

  2. Крістос Агіаклолог та Апостолос Цимпанос, хибні співвідношення для стаціонарних процесів AR (1) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (це показує, що ви навіть можете отримати проблема між стаціонарними серіями; звідси схильність до попереднього вживання)

  3. Класична довідка Юля (1926) [1], згадана вище.

Ви також можете знайти тут дискусію корисною, а також дискусію тут

-

Використовувати кореляцію Пірсона змістовно між часовими рядами складно, а іноді й напрочуд тонко.


Я подивився хибну кореляцію, але мені байдуже, чи є моя серія "А" причиною моєї серії B чи навпаки. Мені хочеться знати, чи можна дізнатися щось про серію А, переглянувши, що робить серія B (або навпаки). Іншими словами - чи мають вони співвідношення.

Візьміть до уваги мій попередній коментар про вузьке використання терміна хибної кореляції у статті Вікіпедії.

Суть про помилкову кореляцію полягає в тому, що ряд може здаватися співвіднесеним, але сама кореляція не має сенсу. Розглянемо, як двоє людей кидали дві різні монети, підраховуючи кількість голів досі мінус кількість хвостів настільки, наскільки величина їх серії.

HTHH...1,0,1,2,...

Очевидно, що між двома серіями немає жодного зв'язку. Зрозуміло, що ніхто не може сказати вам перше про інше!

Але подивіться, які співвідношення ви отримуєте між парами монет:

введіть тут опис зображення

Якби я не сказав вам, що це було, і ви взяли будь-яку пару цих серій самостійно, це були б вражаючі кореляції, чи не так?

Але всі вони безглузді . Зовсім неправдивий. Жодна з трьох пар насправді не є більш позитивно чи негативно пов’язаною одна з одною, ніж будь-яка інша - її щойно накопичений шум . Підробність це не тільки передбачення, все поняття про розгляд зв'язку між рядами без урахування залежності внутрішньогрупових серій недоречно.

Все, що у вас є, - це серіальна залежність. Ніякого фактичного перехресного ряду немає.

Якщо ви правильно вирішите проблему, яка робить ці серії автозалежними - всі вони інтегровані ( випадкові прогулянки Бернуллі ), тож вам потрібно їх відрізнити - «очевидна» асоціація зникає (найбільша абсолютна кореляція між серій із трьох становить 0,048).

Те, що вам говорить, - це правда - явна асоціація є простою ілюзією, спричиненою залежністю всередині серії.

У вашому запитанні було задано питання "як правильно використовувати кореляцію Пірсона з часовими рядами" - тому, будь ласка, зрозумійте: якщо є залежність між серіями і ви не впораєтеся з нею спочатку, ви не будете використовувати її правильно.

Крім того, згладжування не зменшить проблему серійної залежності; зовсім навпаки - це робить ще гірше! Ось кореляції після згладжування (типовий льосовий гладкий - серії проти індексу - виконується в R):

            coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559 

Вони всі дісталися далі від 0. Вони все ще нічого, крім безглуздого шуму , хоча зараз це згладжений, накопичений шум. (Згладжуючи, ми зменшуємо мінливість у рядах, які ми вводимо у розрахунок кореляції, так що, можливо, тому кореляція зростає.)

[1]: Yule, GU (1926) "Чому іноді ми отримуємо нісенітницю-кореляції між часовими серіями?" J.Roy.Stat.Soc. , 89 , 1 , с. 1-63


Дякую за чудову відповідь. Я шукав хибну кореляцію, але мені все одно, чи моя серія A є причиною моєї серії B чи навпаки. Мені хочеться знати, чи можна дізнатися щось про серію А, переглянувши, що робить серія B (або навпаки). Іншими словами - чи мають вони співвідношення.
користувач1551817

Будь ласка, дивіться мою оновлену відповідь.
Glen_b

2
"..так вам потрібно їх відрізняти .." що це означає саме? Можливо, диференціюючи їх? ..
Георгіос Плігоропулос

1
Різниця - дивіться Вікіпедію тут або в цьому розділі книги Прогнозування, принципи та практики . Що стосується вашого наступного запитання, то решта абзацу, який ви цитуєте, цілком прямо говорять так. (Це не єдина можливість, однак, лише описуючи одну досить поширену річ, що робиться)
Glen_b


6

(St)1tTXt=StSt1), які (у випадку випадкових прогулянок) незалежні та однаково розподілені. Я пропоную вам скористатися співвідношенням Спірмена або Кендаллом, оскільки вони більш стійкі, ніж коефіцієнт Пірсона. Пірсон вимірює лінійну залежність, тоді як міра Спірмена та Кендалла інваріантна монотонними перетвореннями змінних.

Крім того, уявіть, що два часові ряди сильно залежні, скажімо, рухається вгору і йде вниз разом, але один, який інколи зазнає сильних варіацій, а інший, який завжди має незначні зміни, кореляція Пірсона буде досить низькою на відміну від Спірмена та Кендалла (що є кращими оцінками залежності між вашими часовими рядами).

Для ретельного лікування цього питання та кращого розуміння залежності можна переглянути теорію Копули та застосувати до часових рядів .


4

Дані часових рядів зазвичай залежать від часу. Однак кореляція Пірсона підходить для незалежних даних. Ця проблема схожа на так звану помилкову регресію. Коефіцієнт, ймовірно, буде дуже значущим, але це походить лише від часової тенденції даних, яка впливає на обидві серії. Я рекомендую моделювати дані, а потім спробувати дізнатися, чи дає моделювання подібні результати для обох серій. Однак використання коефіцієнта кореляції Пірсона, швидше за все, дасть оманливі результати для інтерпретації структури залежності.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.