Алгоритми виявлення аномалії часових рядів


24

Зараз я використовую AnomalyDetection Twitter в R: https://github.com/twitter/AnomalyDetection . Цей алгоритм забезпечує виявлення аномалії часових рядів для даних із сезонністю.

Питання: чи існують подібні алгоритми, подібні до цього (контроль за сезонністю не має значення)?

Я намагаюся оцінити якомога більше алгоритмів часових рядів на моїх даних, щоб я міг вибрати найкращий / ансамбль.

Відповіді:


16

Алгоритм Twitter заснований на

Роснер, Б., (травень 1983 р.), "Відсоткові бали за загальну процедуру загальної ОРС", Технометрія, 25 (2), с. 165-172

Я впевнений, що з 1983 року було багато методик і досягнень! Я перевірив свої внутрішні дані, і виявлення аномалії Twitter не визначає очевидних людей. Я б застосував і інші підходи, щоб перевірити, чи є люди, що пережили час, у часових рядах. Найкраще, на що я стикався, - це процедура виявлення зовнішніх робіт Tsay, реалізована в програмному забезпеченні SAS / SPSS / Autobox та SCA. Все це комерційні системи. Існує також пакет tsoutliers, який чудовий, але arimaдля ефективної роботи потрібна специфікація моделі. У мене виникли проблеми з його замовчуванням auto.arimaщодо оптимізації та вибору моделі.

Стаття Цая - це натхненна робота щодо виявлення зовнішніх часових рядів. Провідний журнал із прогнозування досліджень Міжнародний журнал прогнозування згадував, що стаття Цей є однією з найбільш цитованих робіт та найвпливовіших праць у статті, що згадується вище (див. Також нижче). Поширення цієї важливої ​​роботи та інших алгоритмів виявлення зовнішніх програм у програмі прогнозування (особливо у програмному забезпеченні з відкритим кодом) є рідкістю.

введіть тут опис зображення


14

Ось варіанти виявлення аномалії в R станом на 2017 рік.

Пакет AnomalyDetection Twitter

  • Працює з використанням сезонного гібридного ESD (SH-ESD);
  • Базується на узагальненому тесті на ОСР для виявлення аномалій;
  • Може виявити як локальні, так і глобальні аномалії;
  • Використання розкладу часових рядів та надійних статистичних показників (наприклад, медіана разом із ОУР)
  • Використовує кусочне наближення для тривалих часових рядів;
  • Також існує метод, коли часові позначки відсутні;
  • Може визначати напрямок аномалій, цікаве вікно, перемикати кускове наближення та підтримувати візуальні зображення.

Пакет anomalyDetection (відрізняється від Twitter)

  • різні підходи, включаючи відстань махаланобіса, факторний аналіз, паралельний аналіз Горна, блок перевірки, аналіз основних компонентів;
  • Має метод боротьби з результатами.

пакет пакетів

  • Виявляє сторонніх людей у ​​часових рядах за процедурою Чена та Лю ( https://www.jstor.org/stable/2290724?seq=1#page_scan_tab_contents );
  • Отримані люди отримують на основі "менш забруднених" оцінок параметрів моделі, оцінених ефектів зовнішнього використання за допомогою багаторазової лінійної регресії та спільних оцінок параметрів моделі та ефектів.
  • Вважає інноваційних людей, адитивних вибухів, зміни рівня, тимчасові зміни та зміни сезонного рівня.

аномально-акм

  • Працює, обчислюючи векторні ознаки для кожного часового ряду (наприклад, включаючи кореляцію відставання, силу сезонного періоду, спектральну ентропію), потім застосовуючи надійні основні компоненти розкладу на ознаки, і, нарешті, застосовуючи різні двовимірні методи виявлення зовнішнього середовища до перших двох основних компонентів;
  • Дає змогу ідентифікувати найбільш незвичайні серії на основі їхніх векторів характеристик;
  • Пакет містить як реальні, так і синтетичні набори даних від Yahoo.

райдужний пакет

  • Використовує сумки та коробки;
  • Ідентифікує аутлайнери з найменшою глибиною або щільністю.

пакет kmodR

  • Використовує реалізацію k-засобів, запропонованих Chawla та Gionis у 2013 році ( http://epubs.siam.org/doi/pdf/10.1137/1.9781611972832.21 );
  • Корисно для створення (потенційно) більш жорстких кластерів, ніж стандартні k-засоби, і одночасно знаходження недоліків у багатовимірному просторі.

метод washeR

Погляд завдання CRAN для надійних статистичних методів

  • Різноманітні підходи для використання надійних статистичних методів для виявлення людей, що втратили життя.

EDIT 2018

аномалізувати: Охайне виявлення аномалії


Будь-які пропозиції, які я можу використовувати для даних часових рядів, але без сезонності? Чи можу я використовувати пакет twitter у такому випадку?
MikeHuber

Пакет Twitter обробляє як локальні, так і глобальні аномалії. Як кажуть у своїх документах, "глобальні аномалії зазвичай поширюються вище або нижче очікуваної сезонності, і тому вони не підлягають сезонності та базовій тенденції". Так, так, ви можете використовувати пакет Twitter для потенційного виявлення аномалій у часових рядах без сезонності. blog.twitter.com/engineering/en_us/a/2015/…
Кібернетичний

8

Я зіткнувся з декількома джерелами, які можуть вам допомогти, але вони не будуть настільки легкими / зручними, як запуск сценарію R над вашими даними: - Numenta має свою відкриту платформу NuPIC, яка використовується для багатьох речей, включаючи виявлення аномалії . - Атлас-проект Netflix незабаром випустить інструмент виявлення аутлера / аномалії з відкритим кодом. - У Prelert є механізм виявлення аномалій, який постачається як серверне додаток. Їх пробна версія пропонує обмежене використання, яке може задовольнити ваші потреби.

Крім того, у моєї компанії Insignum є продукт у бета-версії, який поглинає дані часових рядів та виявляє аномалії повністю автоматизованим способом, і ви просто отримуєте сповіщення електронною поштою, коли виявляються аномалії. Зверніться до Twitter або Linkedin, і я з радістю розповім вам більше.


3

Autobox (моя компанія) забезпечує зовнішнє виявлення. Алгоритм Твіттера отримує великі виграші, але пропускає менші порівняно з Autobox .

Бігати потрібно тривалий час, але результати кращі для того, щоб знайти менших випускників, а також зміни сезонності, які також є пережилими. Нижче наводиться модель, яка виявила 79 осіб, які використовували перші люди, використовуючи перші 8,560 спостережень 14 398 оригінальних спостережень. Стандартна версія максимуму налічує 10 000 спостережень, але її можна змінити для отримання більшої кількості, але немає реальної причини все одно мати стільки даних, коли ви хочете ідентифікувати та реагувати на людей, які переживають люди.

На нас вплинула робота, проведена Цаєм, щодо перенапруг, зміни рівня та зміни дисперсії, а робота Чоу над зміною параметрів разом із власною роботою з виявлення змін сезонності,

Якщо ви завантажите 30-денну пробну версію та завантажите у прикладі дані Twitter і вкажіть частоту до 60 та збережіть три тригер-файли у папці інсталяції (noparcon.afs, novarcon.afs, notrend.afs) та створіть файл під назвою stepupde. afs зі 100.

введіть тут опис зображення

введіть тут опис зображення

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.