Співвідношення обсягу часових серій


12

Розглянемо наступний графік:

щебетання та обсяг торгівлі

Червона лінія (ліва вісь) описує обсяг торгів певної акції. Синя лінія (права вісь) описує обсяг повідомлення про щебетання для цього запасу. Наприклад, 9 травня (05-09) було здійснено близько 1,100 мільйонів торгів та 4 000 твітів.

Я хотів би порахувати, чи існує кореляція між тимчасовими серіями, або в той же день, або з відставанням - наприклад: обсяг твіт корелює з обсягом торгів через день. Я читаю багато статей, які зробили такий аналіз, наприклад, Зв'язок фінансових часових рядів з активністю мікро-блогів , але вони не описують, як такий аналіз робиться на практиці. У статті зазначено:

введіть тут опис зображення

Однак у мене дуже мало досвіду статистичного аналізу і не знаю, як це виконати для тієї серії, що у мене є. Я використовую SPSS (також відомий як PASW), і моє запитання: які дії потрібно зробити, щоб зробити такий аналіз з моменту, коли у мене є файл даних, що лежить в основі вищевказаного зображення? Чи є такий тест функцією за замовчуванням (і як вона називається) та / або як я можу це ще виконати?

Будь-яка допомога буде дуже вдячна :-)


1
Ви можете їх обчислити ... ви просто не можете порівняти їх з критичними значеннями, якщо обидві серії не є
двовірневими

Я вставив сюди необроблені дані: pastebin.com/tZajRae9 Чи є спосіб сказати, чи є серії бі-змінними нормальними? Я дуже вдячний за ваш коментар.
Pr0no

Після виявлення зрушень Outliers / Level у кожній з серій в результаті коригуваної серії показали модель AR (1). Після включення не тільки регулювання зсуву / рівня зсуву ТА емпірично визначеного AR (1) обидва ряди шумів не були автокореляційними (у структурі). Перехресна кореляція цих двох сурогатних серій показала відсутність суттєвої перехресної кореляції (серед структури), тому кількість твітів не могла допомогти передбачити обсяг.
IrishStat

Відповіді:


6

Дві перевірки на двовимірну нормальність перевіряють три речі:

  1. перевірити, чи перша серія спостережень є гранично нормальною,
  2. перевірити, чи друга серія спостережень є гранично нормальною,
  3. регресують один на одного і перевіряють, чи є залишки в нормі.

Щоб перевірити нормальність на кожному з цих етапів, використовуйте звичайні графіки qq або ви можете використовувати тест гіпотези щодо нормальності.

Або ви можете перевірити, чи кожна можлива лінійна комбінація (реальні коефіцієнти) двох серій є гранично нормальною. Це, мабуть, буде складно.

Редагувати: (6 років потому) Я буду зберігати вищезазначене для нащадків, але зауважте, що у мене є нещодавніша відповідь на подібне питання тут .


Я зробив кроки 1 і 2 і придумав наступні скриньки: i.imgur.com/SDOTE.png За винятком 3-х 5-ти спостережень, вони виглядають незначно нормально. Однак Зіг. значення для тесту Шапіро-Вілка становить 0,000, що вказувало б на значне відхилення від нормальності. З вилученими залишками Шапіро Вілк Сиг. становить 0.201 для твітів і 0,004 для торгів. Чи вказує це, що кореляція не можлива? Крім того, це часовий серіал - видалення залишків означає видалення днів у досліджуваних часових межах. Це прийнята практика?
Pr0no

Я також зробив ділянку pp для кроку 3. Або, принаймні, в моєму трактуванні це те, що мені потрібно (лінійна регресія з нормальною графіком ймовірності): i.imgur.com/EZ3Ic.png Будь-які коментарі?
Pr0no

Граничні розподіли не виглядають нормально. На посиланні сторінки вікіпедії є невеликий розділ про умовивід . Видалення інших людей, як правило, не є хорошою ідеєю. Можливо завантажувати довірчий інтервал.
Тейлор

1
Питання стосується кореляції - але відповідь - про нормальність. Відповідь повторюється кілька разів та приймається. Чого я тут пропускаю? ..
Річард Харді

Біваріантний нормальний розподіл - це найпростіша модель, яка мотивує / обґрунтовує, використовуючи кореляцію Пірсона.
Тейлор

11

Коефіцієнт кореляції між часовими рядами марний. Див. КОРЕФІКАЦІЯ КОРЕЛЕЛЯЦІЇ - Критичні значення для перевірки значущості . На це вперше вказав У. Юле в 1926 р. Yule, GU, 1926, "Чому ми іноді отримуємо нісенітницькі кореляції між часовими рядами? Дослідження вибірки та характер часових рядів", Journal of the Royal Statistics Society 89, 1 –64 . Ви можете захотіти google "чому ми отримуємо дурницькі кореляції" для отримання додаткової інформації.

Причиною цього є тести на кореляцію, що вимагають спільної нормальності. Нормальність суглобів вимагає, щоб кожна серія була нормальною. Нормальність вимагає незалежності. Щоб вивчити взаємозв’язок між часовими рядами, будь ласка, ознайомтеся з ідентифікацією функції передачі у будь-якій книзі хороших часових рядів, як Аналіз часових рядів: Уніваріантний та багатоваріантний методи Вільям У. С. Вей, Девід П. Рейлі .

Відповідь на виклик

З точки зору відповіді на ваш виклик. Мало хто ( Yule, GU, 1926 ) добре знає, що співвідношення двох часових рядів може бути хибним, особливо якщо на будь-який ряд впливають імпульси / зрушення рівня / сезонні імпульси та / або місцеві тенденції часу. У такому разі я б взяв кожну серію окремо і визначив структуру ARIMA та будь-які імпульси / зрушення рівня / сезонні імпульси та / або місцеві тенденції часу, які можуть застосовуватися та створювати процес помилок.

З двома чистими помилками, один для кожної з двох оригінальних серій, я би обчислював перехресну кореляцію, яка потім могла бути використана для вимірювання ступеня асоціації вище та поза автокореляційною структурою в кожній серії. Це рішення належним чином називається підходом подвійного попереднього відбілювання.

Побачити:


Дякуємо за Ваш відповідь. Але ви хочете сказати, що за визначенням документа, про який я згадував, не має значення? По-друге, чи означає це, що за визначенням два ряди ніколи не можуть бути співвіднесені там, де кореляція cthe має значення?
Pr0no

3
Кореляція може бути обчислена як проста арифметика. Що неможливо обчислити (легко) - це ймовірність того, що кореляція є статистично значущою. Подумайте про те, коли ви вперше познайомилися з коефіцієнтом кореляції. Саме в контексті N незалежних зразків було обчислено дві характеристики / значення для кожного з N незалежних зразків, а щільність суглоба була двовимірною нормальною.
IrishStat

1
Чому для цього потрібна спільна нормальність, а не просто однаковий (симетричний?) Розподіл? тобто чи не працюватиме спільна рівномірність?
naught101

1
@ NAUGHT101. Критичні значення коефіцієнта кореляції доступні за умови припущення про нормальність спільності та невизначені в іншому випадку.
IrishStat

@IrishStat Дякую за відредаговану відповідь. Це цінується. Для тестування на нормальність див. I.imgur.com/SDOTE.png для графіків qq окремих змінних. Після вилучення залишків графік pp, з якого я розумію, що вимірює норму спільності, виглядає так i.imgur.com/EZ3Ic.png Будь-які коментарі?
Pr0no
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.