Я шукаю кілька надійних методів усунення випадків та помилок (незалежно від причини) з даних фінансових часових рядів (тобто тикдатів).
Дані про фінансові часові серії "Позначте за кліком" дуже брудні. Він містить величезні (часові) прогалини, коли обмін закритий, і роблять величезні стрибки, коли обмін відкриється знову. Коли біржа відкрита, усі види факторів вводять торги за ціновими рівнями, які є неправильними (вони не відбулися) та / або не є репрезентативними для ринку (сплеск через неправильно введену пропозицію або запитують ціну, наприклад). Цей документ від tickdata.com (PDF) добре допомагає окреслити проблему, але пропонує декілька конкретних рішень.
Більшість паперів, які я можу знайти в Інтернеті, які згадують про цю проблему, або ігнорують її (тикетда вважається відфільтрованою), або включають фільтрування як частину величезної торгової моделі, яка приховує будь-які корисні кроки фільтрації.
Хтось знає про більш глибоку роботу в цій галузі?
Оновлення: ці питання здаються схожими на поверхню, але:
- Фінансовий часовий ряд є (принаймні на рівні галочок) неперіодичним.
- Ефект відкриття є великою проблемою, оскільки ви не можете просто використовувати дані останнього дня як ініціалізацію, навіть якщо вам дуже хотілося б (бо в іншому випадку у вас нічого немає). Зовнішні події можуть призвести до того, що відкриття нового дня різко відрізнятиметься як в абсолютному рівні, так і в мінливості від попереднього дня.
- Дивовижна нерегулярна частота вхідних даних. Поблизу відкритого та закритого дня кількість точок даних / секунду може бути в 10 разів більшим за середній протягом дня. Інше питання стосується регулярно вибіркових даних.
- "Видатки" у фінансових даних демонструють певні закономірності, які можна було б виявити за допомогою певних методів, не застосовуваних в інших областях, і я - в частині, що шукаю ці конкретні методи.
- У більш екстремальних випадках (наприклад, спалах спалаху) люди, що втрачають спалах, можуть становити понад 75% даних за більш тривалі інтервали (> 10 хвилин). Крім того, (висока) частота вхідних даних містить деяку інформацію про зовнішній аспект ситуації.