Щодо інших моделей, випадкові ліси мають меншу ймовірність, але все-таки ви хочете докласти явних зусиль, щоб цього не було. Налаштування параметрів моделі, безумовно, є одним із елементів уникнення переобладнання, але це не єдиний. Насправді я б сказав, що ваші навчальні функції швидше призводять до переозброєння, ніж параметри моделі, особливо з випадковими лісами. Тож я думаю, що ключовим є насправді надійний метод оцінити вашу модель, щоб перевірити на придатність більше, ніж будь-що інше, що підводить нас до вашого другого питання.
Як уже згадувалося вище, запуск крос-валідації дозволить уникнути перевиконання. Вибір найкращої моделі на основі результатів резюме призведе до непридатності моделі, що не обов'язково має місце для чогось типу помилки в сумці. Найпростіший спосіб запустити резюме в R - це caret
пакет. Простий приклад наведено нижче:
> library(caret)
>
> data(iris)
>
> tr <- trainControl(method = "cv", number = 5)
>
> train(Species ~ .,data=iris,method="rf",trControl= tr)
Random Forest
150 samples
4 predictor
3 classes: 'setosa', 'versicolor', 'virginica'
No pre-processing
Resampling: Cross-Validated (5 fold)
Summary of sample sizes: 120, 120, 120, 120, 120
Resampling results across tuning parameters:
mtry Accuracy Kappa Accuracy SD Kappa SD
2 0.96 0.94 0.04346135 0.06519202
3 0.96 0.94 0.04346135 0.06519202
4 0.96 0.94 0.04346135 0.06519202
Accuracy was used to select the optimal model using the largest value.
The final value used for the model was mtry = 2.