Я працюю з тимчасовим рядом балів аномалій (фон - виявлення аномалії в комп'ютерних мережах). Щохвилини я отримую оцінку аномалії яка говорить про те, наскільки "несподіваним" чи ненормальним є поточний стан мережі. Чим вище оцінка, тим більше ненормальним є поточний стан. Теоретично можливі оцінки, близькі до 5, але майже ніколи не трапляються.
Тепер я хочу створити алгоритм або формулу, яка автоматично визначає поріг для цього часового ряду аномалій. Як тільки оцінка аномалії перевищує цей поріг, спрацьовує тривога.
Розподіл частот нижче є прикладом часового ряду аномалій протягом 1 дня. Однак не можна припустити, що кожен часовий ряд аномалій буде виглядати так. У цьому спеціальному прикладі поріг аномалії, такий як квадратик .99, має сенс, оскільки декілька балів у правій частині можуть розглядатися як аномалії.
І такий же розподіл частоти, як часовий ряд (він становить лише від 0 до 1, оскільки немає більш високих показників аномалії у часовому ряду):
На жаль, розподіл частоти може мати форму, де 0,9-квантиль не корисний . Приклад наведено нижче. Правий хвіст дуже низький, тому, якщо в якості порогового значення використовується 99-квантильний показник, це може призвести до багатьох помилкових позитивних результатів. Схоже, цей розподіл частоти не містить аномалій, тому поріг повинен лежати поза розподілом приблизно в 0,25.
Підсумовуючи, різниця між цими двома прикладами полягає в тому, що перший, здається, має аномалії, тоді як другий - ні.
З моєї наївної точки зору, алгоритм повинен розглянути ці два випадки:
- Якщо розподіл частоти має великий правий хвіст (тобто пара аномальних балів), то коефіцієнт .99 може бути хорошим порогом.
- Якщо розподіл частоти має дуже короткий правий хвіст (тобто немає аномальних балів), поріг повинен лежати поза розподілом.
/ редагувати: Не існує також основної істини, тобто наявних наборів даних із міткою. Таким чином, алгоритм є «сліпим» від природи оцінок аномалії.
Зараз я не впевнений, як ці спостереження можна висловити за допомогою алгоритму чи формули. Хтось має пропозицію, як можна вирішити цю проблему? Я сподіваюся, що мої пояснення є достатніми, оскільки мій статистичний досвід дуже обмежений.
Спасибі за вашу допомогу!