Який найкращий спосіб автоматичного вибору функцій для виявлення аномалії?
Я зазвичай розглядаю функцію виявлення аномалії як алгоритм, де функції вибираються експертами людини: важливим є діапазон виводу (як у "ненормальному введенні - ненормальний вихід"), тому навіть при багатьох функціях ви можете створити набагато менший підмножина шляхом комбінування особливості.
Однак, якщо припустити, що в загальному випадку список особливостей може бути величезним, можливо, іноді переважніше автоматизоване навчання. Наскільки я бачу, є кілька спроб:
- "Автоматизований вибір функцій для виявлення аномалії" ( pdf ), який узагальнює опис векторних даних підтримки
- "Швидка система виявлення вторгнень на основі хоста, що використовує грубу теорію наборів" (pdf недоступна?), Яка, я думаю, використовує грубу теорію набору
- "Правила навчання виявлення аномалії ворожої мережевого трафіку" ( pdf , video ), яка використовує статистичний підхід
Тож тепер мені цікаво, чи може хтось сказати - якщо припустити виявлення аномалії та дійсно великий (сотні?) Набір функцій:
- Чи мають ці величезні набори функцій взагалі сенс? Чи не варто ми просто зменшити набір функцій, скажімо, на кілька десятків, і все?
- Якщо величезний набір функцій має сенс, який із підходів, що були вище, дав би кращі прогнози, і чому? Чи є щось, що не перелічено, що набагато краще?
- Чому вони повинні давати кращі результати порівняно з, скажімо, зменшенням розмірності або побудовою функцій за допомогою кластеризації / ранжирування / тощо?