Аналіз журналу сервера за допомогою машинного навчання


10

Мені було призначено проаналізувати серверні журнали нашого додатку, що містять журнали виключень, журнали подій журналів баз даних і т. Д. Я новачок у машинному навчанні, ми використовуємо Spark з еластичним пошуком та Sparks MLlib (або PredictionIO). На прикладі потрібного Результатом було б можливість передбачити на основі зібраних журналів винятків, щоб можна було передбачити, який користувач швидше спричинить наступний виняток і за якою функцією (та купу інших матеріалів для відстеження та покращення оптимізації програми).

Мені вдалося перенести дані з ElasticSearch в іскру і створити DataFrames та зіставити необхідні дані. Я хотів би знати, як я підходжу до аспекту машинного навчання моєї реалізації. Я переглядав статті та статті, які розповідають про попередню обробку даних, навчають моделі даних і створюють мітки, а потім генерують прогнози.

Питання у мене є

  • Як я підходжу до перетворення даних журналу, що виходить, у числові вектори, які можна використовувати для наборів даних для навчання.

  • Які алгоритми я використовую для тренування мого набору даних (з обмеженими знаннями, які я збирав за останні кілька днів, я думав про те, щоб реалізувати лінійну регресію, будь ласка, підкажіть, яка реалізація буде найкращою)

Просто шукаю пропозиції, як підійти до цієї проблеми.

Дякую тобі.


Якщо б у вас були можливості прогнозування, щоб певний користувач мав велику ймовірність виключення, що б ви зробили? Мета - оптимізувати додаток. Ви намагаєтеся уточнити, на які інженери-помилки слід витратити свій час, а не просто виправляти відомі помилки в додатку? Функціональна інженерія може бути дуже важливою для цього завдання. Крім того, ви можете розглянути логістичну регресію, яка призведе до значення 0..1, що може трактуватися як ймовірність.

5
Я думаю, ви перекриваєте цілі. Не ставтеся до МЛ як до чорної скриньки, щоб робити магію. Вам потрібно задати правильні запитання (і мати відповідні дані для цього), щоб отримати будь-який результат.
Мав QUIT - Anonymous-Mousse

Чи вирішено вашу проблему, щоб передбачити, який користувач швидше спричинить наступний виняток та за якою функцією (та ще безліч речей, щоб відстежувати та покращувати оптимізацію програми) ? Якщо так, то можете, будь ласка, поділитися своїм підходом до рішення чи хтось інший?
Ашіш Тяги

Відповіді:


12

Я не думаю, що вам не потрібно перетворювати окремі записи журналу у вектори для використання в алгоритмі. Я б здогадувався, що те, що вас цікавить, - це послідовність записів журналів, що представляють собою події, впорядковані за часом, які разом складають низку «випадків». Тут важливим є зв'язок між серією зібраних записів журналу.

Якщо це так, то, можливо, вам варто подумати про використання методів Process Mining . Це дозволяє будувати моделі вашого процесу (використання вашої програми) та визначати шаблони кроків процесу, разом з помилками та переробляти кроки.

Існує хороший вступний курс на Coursera, тут . Існують навіть деякі розроблені комерційні пакети, такі як "дискотека", які допоможуть вам проаналізувати та візуалізувати

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.