Міцне виявлення зовнішньої торгівлі у фінансових періодах


16

Я шукаю кілька надійних методів усунення випадків та помилок (незалежно від причини) з даних фінансових часових рядів (тобто тикдатів).

Дані про фінансові часові серії "Позначте за кліком" дуже брудні. Він містить величезні (часові) прогалини, коли обмін закритий, і роблять величезні стрибки, коли обмін відкриється знову. Коли біржа відкрита, усі види факторів вводять торги за ціновими рівнями, які є неправильними (вони не відбулися) та / або не є репрезентативними для ринку (сплеск через неправильно введену пропозицію або запитують ціну, наприклад). Цей документ від tickdata.com (PDF) добре допомагає окреслити проблему, але пропонує декілька конкретних рішень.

Більшість паперів, які я можу знайти в Інтернеті, які згадують про цю проблему, або ігнорують її (тикетда вважається відфільтрованою), або включають фільтрування як частину величезної торгової моделі, яка приховує будь-які корисні кроки фільтрації.

Хтось знає про більш глибоку роботу в цій галузі?

Оновлення: ці питання здаються схожими на поверхню, але:

  • Фінансовий часовий ряд є (принаймні на рівні галочок) неперіодичним.
  • Ефект відкриття є великою проблемою, оскільки ви не можете просто використовувати дані останнього дня як ініціалізацію, навіть якщо вам дуже хотілося б (бо в іншому випадку у вас нічого немає). Зовнішні події можуть призвести до того, що відкриття нового дня різко відрізнятиметься як в абсолютному рівні, так і в мінливості від попереднього дня.
  • Дивовижна нерегулярна частота вхідних даних. Поблизу відкритого та закритого дня кількість точок даних / секунду може бути в 10 разів більшим за середній протягом дня. Інше питання стосується регулярно вибіркових даних.
  • "Видатки" у фінансових даних демонструють певні закономірності, які можна було б виявити за допомогою певних методів, не застосовуваних в інших областях, і я - в частині, що шукаю ці конкретні методи.
  • У більш екстремальних випадках (наприклад, спалах спалаху) люди, що втрачають спалах, можуть становити понад 75% даних за більш тривалі інтервали (> 10 хвилин). Крім того, (висока) частота вхідних даних містить деяку інформацію про зовнішній аспект ситуації.

1
Я не думаю, що це дублікат через характер даних. Проблема, обговорювана в іншому питанні, стосувалася регулярно спостерігаються часових рядів з випадковими випускниками (принаймні, так я її інтерпретував). Характер даних "тик-клік" призвів до різних рішень через ефект відкриття обміну.
Роб Хайндман

можливий дублікат простого алгоритму для виявлення зовнішньої роботи в Інтернеті загального часового ряду Це питання пропонується закрити як дублікат. Чи можете ви, будь ласка, повідомити нас у метапотоку, якщо і чим ваш контекст відрізняється від питання, з яким я пов’язаний?

@Rob Але ефект відкриття обміну визначає лише те, коли потрібно запустити алгоритм. Фундаментальне питання залишається тим самим. Навіть у мережевих даних у вас є "ефект відкриття офісу", коли трафік досягає максимальної швидкості, як тільки офіс відкриється. Принаймні, ОП має покластись на це питання, просканувати відповіді там і пояснити, чому рішення не працюють, щоб відповідна відповідь була розміщена на це питання.

1
Я згоден з @Rob. Цей вид даних може створювати унікальні виклики, тому це не дублікат.
Шейн

1
Я думаю, що це тут належить. Питання полягає в аналізі неправильно розташованих, дуже галасливих часових рядів. Чи заглядали ви в «Вступ до високочастотного фінансування» Дакороньї, Олсена та ще багатьох інших? Або папери тих самих авторів?
PeterR

Відповіді:


14

Проблема, безумовно, важка .

Механічні правила, такі як +/- N1 разів стандартні відхилення, або + / N2 рази MAD, або +/- N3 IQR або ... не зможуть, оскільки завжди є деякі серії, які відрізняються, наприклад:

  • такі виправлення, як міжбанківська ставка, можуть бути постійними протягом деякого часу, а потім раптом стрибнути
  • аналогічно, наприклад, наприклад, для деяких іноземних бірж, що виходять з прив'язки
  • певний інструмент неявно поширюється; вони можуть бути близькими до нуля протягом періодів і раптового стрибка колектора

Був там, робив це, ... на попередній роботі. Ви можете спробувати розбити кожну серію за допомогою судів арбітражних відносин ( наприклад, якщо вважати, що USD / EUR та EUR / JPY вважаються хорошими, ви можете опрацьовувати діапазони навколо того, яким повинен бути USD / JPY; аналогічно для похідних від базових тощо пп.

Постачальники комерційних даних розширюють певні зусилля з цього приводу, а ті, хто користується їх клієнтами, знають ... це все ще не виключає помилок.


+1 так, нічого ідеального. У Tickdata.com (чий папір згадується) також є люди, що переживають люди, і вони також позбавляють надто гарних даних (у порівнянні з іншим джерелом). Дані Олсена близькі до жахливих, і я взагалі просто показовий. Існує причина, що банки платять великим операційним командам для роботи над цим.
Шейн

Мені подобається ваша ідея щодо використання відомих арбітражних відносин. ви це взагалі пробували на своїй попередній роботі?
jilles de wit

Ні, ми ніколи цього не формалізували. Але я думаю, що ми використовували кілька простих (тобто ETF проти базового індексу тощо). Але минуло кілька років.
Дірк Еддельбюттель

8

Я додаю кілька посилань на папір, коли я знову за комп’ютером, але ось кілька простих пропозицій:

Однозначно почніть з роботи з віддачею. Це дуже важливо для подолання нерегулярних інтервалів, де ви, природно, можете отримати великі розбіжності у цінах (особливо у вихідні дні). Тоді ви можете застосувати простий фільтр, щоб видалити прибутки, що виходять за рамки норми (наприклад, проти великої кількості стандартних відхилень). Повернення буде пристосовано до нового абсолютного рівня, тому великі реальні зміни призведуть до втрати лише однієї галочки. Я пропоную використати двопрохідний фільтр із поверненнями, зробленими з 1 кроку та п яти кроків, щоб розібратися з кластерами, що переживають.

Редагувати 1: Що стосується використання цін, а не прибутку: ціни на активи, як правило, не є стаціонарними, тому ІМО може створювати додаткові проблеми. Для того, щоб врахувати наслідки закону про нерегулярність та владу, я б радив здійснити коригування, якщо ви хочете включити їх у свій фільтр. Ви можете масштабувати зміни цін за часовим інтервалом або за мінливістю. Для деякої дискусії з цього приводу можна посилатися на літтюру "реалізованої мінливості". Також обговорювались у Dacorogna et. ін.

Щоб врахувати зміни в нестабільності, ви можете спробувати базувати свій розрахунок нестабільності за той самий час дня за останній тиждень (використовуючи сезонність).


Використовуючи лише прибутки, ви стаєте дуже вразливими до сходів (тобто послідовності цін, що піднімаються або відпадають від норми, де кожна окрема віддача є прийнятною, але в якості групи вони представляють люди, що переважають). В ідеалі ви б використовували і повернення, і абсолютний рівень.
jilles de wit

5

Я (з деякою затримкою) змінив свою відповідь, щоб відобразити ваше занепокоєння з приводу відсутності "пристосованості" безумовного божевілля / медіани.

(мк^т,σ^т)

хт-мк^тσ^т

Ви можете знайти більше інформації (та посилання на пакет R) у цьому документі :

Boudt, K. and Croux, C. (2010). Надійна М-оцінка багатоваріантних моделей GARCH.


Я спробував щось подібне, але цей метод не дуже добре справляється з різкими змінами мінливості. Це призводить до недостатнього фільтрування в спокійні періоди і до перенапруження у більш напружений час.
jilles de wit

Я цього не розумію "Це призводить до недостатнього фільтрування в спокійні періоди і перефільтрації в більш напружений час", хочете пояснити?
user603

У спокійні періоди коливання цін, як правило, нижчі, тому ціни, наближені до середніх, можна вважати випереджаючими. Однак, оскільки ви використовуєте MAD протягом (імовірно) цілого торгового дня (або навіть довше), ці люди, що перебувають у продажу, знаходяться на відстані менше 3 МАД від медіани і не фільтруються. Зворотний бік справедливий для напружених періодів з більш високими ціновими рухами (прийнятні цінові руху будуть відфільтровані). Таким чином, проблема зводиться до правильної оцінки ПДВ у будь-який час, з чого слід почати.
jilles de wit
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.