Отже, я новачок у галузі ML та намагаюся зробити якусь класифікацію. Моя мета - передбачити результат спортивної події. Я зібрав декілька історичних даних і зараз намагаюся підготувати класифікатора. У мене було близько 1200 зразків, 0,2 з них я розділив для тестових цілей, інші я вклав у пошук сітки (включена перехресна перевірка) з різними класифікаторами. Я спробував SVM з лінійними, rbf та поліномними ядрами та випадковими лісами на даний момент. На жаль, я не можу отримати точність, значно більшу за 0,5 (те саме, що і випадковий вибір класу). Це означає, що я просто не можу передбачити результат такої складної події? Або я можу отримати принаймні 0,7-0,8 точності? Якщо це можливо, то що я повинен розглянути далі?
- Отримати більше даних? (Я можу збільшити набір даних до 5 разів)
- Спробуйте різні класифікатори? (Логістична регресія, kNN тощо)
- Переоцінити мій набір функцій? Чи є ML-інструменти для аналізу, які функції мають сенс, а які ні? Можливо, я повинен зменшити набір функцій (на даний момент у мене є 12 функцій)?