Я намагаюся налаштувати велику інфраструктуру даних за допомогою Hadoop, Hive, Elastic Search (серед інших), і я хотів би запустити деякі алгоритми над певними наборами даних. Я хотів би, щоб самі алгоритми були масштабованими, тому це виключає використання таких інструментів, як Weka, R або навіть RHadoop. Бібліотека Apache Mahout здається хорошим варіантом, і вона містить алгоритми для регресії та кластеризації завдань .
Що я намагаюся знайти - це рішення для виявлення аномалії чи зовнішньої ситуації.
Оскільки в Mahout представлені моделі «Приховані Маркові» та різноманітні методи кластеризації (включаючи K-Means), мені було цікаво, чи можна було б побудувати модель для виявлення людей, що пережили час, у часі, використовуючи будь-яку з них. Буду вдячний, якщо хтось досвідчений з цим міг порадити мені
- якщо це можливо, і в тому випадку, якщо це можливо
- як це зробити, плюс
- оцінка докладених зусиль та
- точність / проблеми такого підходу.