Мені було призначено проаналізувати серверні журнали нашого додатку, що містять журнали виключень, журнали подій журналів баз даних і т. Д. Я новачок у машинному навчанні, ми використовуємо Spark з еластичним пошуком та Sparks MLlib (або PredictionIO). На прикладі потрібного Результатом було б можливість передбачити на основі зібраних журналів винятків, щоб можна було передбачити, який користувач швидше спричинить наступний виняток і за якою функцією (та купу інших матеріалів для відстеження та покращення оптимізації програми).
Мені вдалося перенести дані з ElasticSearch в іскру і створити DataFrames та зіставити необхідні дані. Я хотів би знати, як я підходжу до аспекту машинного навчання моєї реалізації. Я переглядав статті та статті, які розповідають про попередню обробку даних, навчають моделі даних і створюють мітки, а потім генерують прогнози.
Питання у мене є
Як я підходжу до перетворення даних журналу, що виходить, у числові вектори, які можна використовувати для наборів даних для навчання.
Які алгоритми я використовую для тренування мого набору даних (з обмеженими знаннями, які я збирав за останні кілька днів, я думав про те, щоб реалізувати лінійну регресію, будь ласка, підкажіть, яка реалізація буде найкращою)
Просто шукаю пропозиції, як підійти до цієї проблеми.
Дякую тобі.