Застосування вейвлетів до алгоритмів виявлення аномалій на основі часових рядів


25

Я почав працювати над навчальними посібниками зі статистичних даних з Ендрю Мура (дуже рекомендується для всіх, хто вперше зайнявся цією сферою). Я почав з прочитання цього надзвичайно цікавого PDF під назвою "Вступний огляд алгоритмів виявлення аномалій на основі часових рядів", в якому Мур простежує багато методів, що використовуються при створенні алгоритму виявлення спалахів хвороби. На півдорозі слайдів, на сторінці 27, він перелічує ряд інших "найсучасніших методів", які використовуються для виявлення спалахів. Перший з них - вейвлети . Wikipeida описує вейвлет як

хвилеподібне коливання з амплітудою, яка починається з нуля, збільшується, а потім зменшується назад до нуля. Зазвичай це можна візуалізувати як "коротке коливання"

але не описує їх застосування до статистики, і мої пошуки Google дають високоакадемічні документи, які передбачають знання про те, як вейвлети стосуються статистики або повних книг з цього питання.

Мені хотілося б базового розуміння того, як вейвлети застосовуються для виявлення аномалії часових рядів, настільки, як Мур ілюструє інші методи в своєму підручнику. Чи може хтось надати пояснення, як працюють методи виявлення за допомогою вейвлетів, або посилання на зрозумілу статтю з цього питання?

Відповіді:


19

Хвилянки корисні для виявлення сингулярності в сигналі (див., Наприклад, папір тут (див. Рисунок 3 для ілюстрації) та посилання, згадані в цьому документі. Я здогадуюсь, що особливості іноді можуть бути аномалією?

Ідея тут полягає в тому, що неперервне вейвлет-перетворення (CWT) має лінії максимуму, які поширюються по частотах, тобто чим довша лінія, тим вища сингулярність. Дивіться рисунок 3 у статті, щоб побачити, що я маю на увазі! зауважте, що існує безкоштовний код Matlab, пов'язаний з цим документом, він повинен бути тут .


Додатково я можу дати вам евристику, де детально пояснюється, чому ДИСКРЕТ (попередній приклад стосується безперервного) хвилевого перетворення ( DWT ) є цікавим для статистики (виправдання невичерпності):

  • Існує широкий клас сигналів (реалістичний (простір Бесова)), які перетворюються на розріджену послідовність за допомогою вейвлет-перетворення. ( властивість стиснення )
  • Широкий клас (квазістаціонарних) процесів, які перетворюються на послідовність з майже некоррельованими ознаками ( властивість декорреляції )
  • Коефіцієнти вейвлет містять інформацію, локалізовану за часом та частотою (в різних масштабах). (властивість у багатьох масштабах)
  • Коефіцієнти вейвлет сигналу концентруються на його особливості .

19

Список у презентації, на який ви посилаєтесь, здається мені досить довільним, і техніка, яка буде використовуватися, буде дійсно залежати від конкретної проблеми. Однак ви зауважите, що він також включає фільтри Kalman , тому я підозрюю, що використання за призначенням - це техніка фільтрації. Вейвлетські перетворення, як правило, підпадають під об'єкт обробки сигналів і часто будуть використовуватися як етап попередньої обробки з дуже галасливими даними. Прикладом може слугувати " Чен і Джан" документ " Багатомасштабне виявлення аномалії " (див. Нижче). Підхід полягає у проведенні аналізу на іншому спектрі, а не на оригінальній галасливій серії.

Вейвлети часто порівнюють із перетворенням на фур'є безперервного часу, хоча вони мають перевагу локалізації як за часом, так і за частотою. Вейвлети можна використовувати як для стиснення сигналу, так і для згладжування (усадка вейвлетів). Зрештою, може бути доцільним застосувати додаткову статистику після застосування вейвлет-перетворення (наприклад, заглянувши у функцію автокореляції). Ще одним аспектом вейвлетів, який може бути корисним для виявлення аномалії, є ефект локалізації: а саме розрив впливатиме лише на вейвлет, що знаходиться поблизу нього (на відміну від перетворення фур'є). Одним із застосувань цього є пошук локально стаціонарних часових рядів (з використанням LSW).

Хлопець Насон має приємну книгу, яку я рекомендував би, якщо ви хочете детальніше заглибитись у практичну статистичну програму: " Методи вейвлетів у статистиці з R ". Це спеціально орієнтоване на застосування вейвлетів для статистичного аналізу, і він надає безліч прикладів реального світу разом із усім кодом (використовуючи пакет хвилі ). У книзі Насона конкретно не йдеться про "виявлення аномалії", хоча це і є захоплююча робота із надання загального огляду.

Нарешті, стаття у Вікіпедії дає багато хороших вступних посилань, тому варто детально її переглядати.

[Як побічна примітка: якщо ви шукаєте гарну сучасну методику виявлення точок зміни, я б запропонував спробувати HMM, перш ніж витрачати занадто багато часу на вейвлет-методи, якщо ви не маєте вагомих причин використовувати вейвлети у вашій конкретній галузі. Це ґрунтується на моєму особистому досвіді. Звичайно, існує багато інших нелінійних моделей, які можна розглянути, тому це дійсно залежить від вашої конкретної проблеми.]


1
Мені не зрозуміло, як приховані Маркові моделі використовуються для виявлення аномалії, але я дуже хотів би знати. Особливо незрозуміла для мене частина полягає в тому, як створити правильну машину, що лежить в основі, зі значущими ймовірностями переходу (якщо тільки це не два стану, як "аномалія" та "не аномалія" з наївною ймовірністю переходу між ними).
Джон Робертсон

6

Найчастіше використовувані та реалізовані функції дискретних вейвлетів (на відміну від CWT, описаних у відповіді Робіна) мають дві приємні властивості, які роблять їх корисними для виявлення аномалії:

  1. Вони компактно підтримуються.
  2. Вони виконують роль фільтри смугових частот із смугою пропускання, визначеною їх підтримкою.

Що це означає на практиці, це те, що ваша дискретна вейвлетська декомпозиція розглядає локальні зміни сигналу в різних масштабах і смугах частот. Якщо у вас (наприклад) високочастотний шум високої частоти, накладений на функцію, яка відображає зсув низької величини протягом більш тривалого періоду, вейвлет-трансформація ефективно відокремить ці дві шкали і дозволить побачити зсув базової лінії, що багато інших техніки пропустять; Зміна цієї базової лінії може означати спалах захворювання або іншу зміну інтересу. Багато способів ви можете ставитися до самого розкладу як до більш плавного (і там було зроблено досить багато роботи над ефективною усадкою для коефіцієнтів вейвлет в непараметричній оцінці; див., Наприклад, багато чого на вейвлетах від Donoho). На відміну від чистих частотних методів, компактна підтримка означає, що вони здатні обробляти нестаціонарні дані. На відміну від чисто часових методів, вони дозволяють здійснити деяку частотну фільтрацію.

На практиці, щоб виявити аномалії або зміни точок, ви застосували б дискретні вейвлет-перетворення (можливо, варіант, відомий або як "Максимальне перекриття DWT" або "Зміна інваріантного DWT", залежно від того, кого ви читаєте), і подивіться на наборах нижчих частот коефіцієнтів, щоб побачити, чи є у вас значні зрушення в базовій лінії. Це покаже вам, коли під будь-щоденним шумом відбуваються тривалі зміни. Персіваль і Уолден (див. Посилання нижче) отримують кілька тестів на статистично значущі коефіцієнти, які ви могли б використати, щоб побачити, чи є такий зсув значним чи ні.

Відмінна довідкова робота для дискретних вейвлетів - Персиваль та Уолден, «Методи вейвлетів для аналізу часових рядів». Хорошим вступним твором є «Вступ до вейвлетів та вейвлет-перетворень, буквар» Берруса, Гопінафа та Го. Якщо ви виходите з інженерного фону, то "Елементи вейвлетів для інженерів та науковців" є хорошим вступом з точки зору обробки сигналів.

(Відредаговано, щоб включити коментарі Робіна)


Перший згаданий вами пункт є помилковим, я пропоную прочитати перше речення глави books.google.fr/… у книзі Даубічі. Крім того, якщо ви прочитали мою відповідь, я вже згадував про приємне властивість DWT у 2-й частині моєї відповіді ...
Робін Жирард

До першого пункту ви маєте рацію. Я повинен був сказати "Найчастіше використовувані / реалізовані функції дискретних вейвлетів"; Я редагую, щоб це відобразити. До другого моменту ви дали хорошу відповідь про те, як деякі CWT (найчастіше вейвлет DOG або пов'язаний з ним вейклер Рікера; щось на зразок напр., Вейвлет Габора не надасть поведінки, яке описується) можуть виявляти аномалії виду сингулярності. Я намагався дати аналогічний опис того, як DWT може використовуватися для виявлення інших видів аномалій.
Багатий

Другий момент, який ви згадуєте, також може бути помилковим: підтримка вейвлетів (якщо вона компактна) дає інформацію про тимчасову локалізацію вейвлета, а не про локалізацію частоти.
Робін Жирард

Дискретні вейвлети - або, принаймні, переважна більшість тих, які реалізовані та широко використовуються - як правило, розроблені таким чином, щоб мати корисні властивості на основі частоти при компактному обмеженні підтримки. Наприклад, стан Добечі, що зникає, більш-менш еквівалентний плоскості в смузі пропускання. Властивості локалізації частоти вейвлетів, як правило, призводять до того, що коефіцієнти мають бути рідкісними поданнями та дозволяють оцінити відхилення шуму за припущенням "сигнал + добавка нульового середнього шуму".
Багатий
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.