Я знаю, що це досить специфічне R
запитання, але я, можливо, думаю про відхилення в пропорції, пояснене, , неправильно. Ось іде.
Я намагаюся використовувати R
пакет randomForest
. У мене є деякі дані про навчання та дані тестування. Коли я підходить до випадкової лісової моделі, ця randomForest
функція дозволяє вводити нові дані тестування для тестування. Потім він повідомляє вам відсоток дисперсії, пояснений у цих нових даних. Коли я дивлюся на це, я отримую одне число.
Коли я використовую predict()
функцію для передбачення значення результату даних тестування на основі моделі, підходящої для навчальних даних, і я беру коефіцієнт кореляції у квадраті між цими значеннями та фактичними значеннями результатів для даних тестування, я отримую інше число. Ці значення не збігаються .
Ось R
код, який демонструє проблему.
# use the built in iris data
data(iris)
#load the randomForest library
library(randomForest)
# split the data into training and testing sets
index <- 1:nrow(iris)
trainindex <- sample(index, trunc(length(index)/2))
trainset <- iris[trainindex, ]
testset <- iris[-trainindex, ]
# fit a model to the training set (column 1, Sepal.Length, will be the outcome)
set.seed(42)
model <- randomForest(x=trainset[ ,-1],y=trainset[ ,1])
# predict values for the testing set (the first column is the outcome, leave it out)
predicted <- predict(model, testset[ ,-1])
# what's the squared correlation coefficient between predicted and actual values?
cor(predicted, testset[, 1])^2
# now, refit the model using built-in x.test and y.test
set.seed(42)
randomForest(x=trainset[ ,-1], y=trainset[ ,1], xtest=testset[ ,-1], ytest=testset[ ,1])