Я отримав сценарій R від когось, щоб запустити випадкову лісову модель. Я змінив і запустив його з деякими даними про співробітників. Ми намагаємось передбачити добровільні розлуки.
Ось додаткова інформація: це класифікаційна модель: 0 = перебування працівника, 1 = працівник припинено, зараз ми дивимося лише на десяток змінних прогнозів, дані "незбалансовані", оскільки записи терміна становлять близько 7 % від загальної кількості встановлених рекордів.
Я запускаю модель з різними виборами mtry та ntree, але зупинився на нижньому. OOB становить 6,8%, що, на мою думку, добре, але матриця плутанини, здається, розповідає іншу історію для прогнозування термінів, оскільки рівень помилок досить високий - 92,79%. Я прав, якщо припустити, що я не можу розраховувати і використовувати цю модель, оскільки високий показник помилок для прогнозування термінів? або є щось, що я також можу зробити, щоб використовувати RF та отримати менший показник помилок для прогнозування термінів?
FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100)
ntree OOB 1 2
100: 6.97% 0.47% 92.79%
200: 6.87% 0.36% 92.79%
300: 6.82% 0.33% 92.55%
400: 6.80% 0.29% 92.79%
500: 6.80% 0.29% 92.79%
> print(FOREST_model)
Call:
randomForest(formula = theFormula, data = trainset, mtry = 3, ntree = 500, importance = TRUE, do.trace = 100)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 3
OOB estimate of error rate: 6.8%
Confusion matrix:
0 1 class.error
0 5476 16 0.002913328
1 386 30 0.927884615
> nrow(trainset)
[1] 5908