Реалізація randomForest не дозволяє відібрати вибірку за кількістю спостережень, навіть при вибірці з заміною. Чому це?
Добре працює:
rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE)
rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE)
Що я хочу зробити:
rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE)
Error in randomForest.default(m, y, ...) :
sampsize can not be larger than class frequency
Аналогічна помилка без стратифікованого зразка:
rf <- randomForest(Species ~ ., iris, sampsize=151, replace=TRUE)
Error in randomForest.default(m, y, ...) : sampsize too large
Оскільки я очікував, що метод буде брати зразки завантажувальної програми, коли дано заміну = TRUE в обох випадках, я не очікував цього обмеження.
Моя мета полягає у використанні цього варіанту стратифікованої вибірки для того, щоб отримати досить великий зразок із відносно рідкісного класу.