Виявлення масштабованого зовнішнього вигляду / аномалії


10

Я намагаюся налаштувати велику інфраструктуру даних за допомогою Hadoop, Hive, Elastic Search (серед інших), і я хотів би запустити деякі алгоритми над певними наборами даних. Я хотів би, щоб самі алгоритми були масштабованими, тому це виключає використання таких інструментів, як Weka, R або навіть RHadoop. Бібліотека Apache Mahout здається хорошим варіантом, і вона містить алгоритми для регресії та кластеризації завдань .

Що я намагаюся знайти - це рішення для виявлення аномалії чи зовнішньої ситуації.

Оскільки в Mahout представлені моделі «Приховані Маркові» та різноманітні методи кластеризації (включаючи K-Means), мені було цікаво, чи можна було б побудувати модель для виявлення людей, що пережили час, у часі, використовуючи будь-яку з них. Буду вдячний, якщо хтось досвідчений з цим міг порадити мені

  1. якщо це можливо, і в тому випадку, якщо це можливо
  2. як це зробити, плюс
  3. оцінка докладених зусиль та
  4. точність / проблеми такого підходу.

1
На це занадто розпливчасто, щоб відповісти. Часові ряди занадто різні, щоб просто кинути на них k-засоби і отримати все корисне. Це сильно залежить від ваших даних.
Має QUIT - Anonymous-Mousse

1
Для виявлення зовнішнього вигляду подивіться алгоритми в ELKI. Це, мабуть, є найповнішою колекцією виявлення сторонніх людей.
Мав QUIT - Anonymous-Mousse

Новіші версії Elasticsearch мають вбудоване виявлення аномалії часових рядів (я думаю, що вам доведеться придбати X-Pack). Я не впевнений, якими алгоритмами вони користуються, але, можливо, варто вивчити нестандартне рішення.
Том

Відповіді:


7

Як t-дайджест порівнюється з алгоритмом p-квадрата?
Девід Маркс

Дякую за відповідь: це проста модель для обчислення екстремальних квантилів, і я думаю, що вона відповідатиме моїм потребам. Однак для більш складних часових рядів, які не мають майже стаціонарного розподілу, цей підхід може виявитися невдалим, і саме тоді я думаю, що нам знадобиться щось адаптивне, наприклад, ланцюг Маркова.
подвійний байт

0

Ви можете посилатися на мою відповідь, пов'язану з методом виявлення аномалії h2o R або Python в stackexchange , оскільки це теж масштабовано.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.