Вся література з моделювання розподілу видів передбачає, що при прогнозуванні присутності / відсутності виду за допомогою моделі, яка видає ймовірності (наприклад, RandomForests), важливим є вибір порогової ймовірності, за якою фактично класифікувати вид як наявність чи відсутність, і слід не завжди покладаються на дефолт 0,5. Мені потрібна допомога з цим! Ось мій код:
library(randomForest)
library(PresenceAbsence)
#build model
RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500)
#eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted
RFpred <- predict(RFfit, mydata, type = "prob")
#put the observed vs. predicted in the same dataframe
ObsPred <- data.frame(cbind(mydata), Predicted=RFpred)
#create auc.roc plot
auc.roc.plot(ObsPred, threshold = 10, xlab="1-Specificity (false positives)",
ylab="Sensitivity (true positives)", main="ROC plot", color=TRUE,
find.auc=TRUE, opt.thresholds=TRUE, opt.methods=9)
З цього я визначив, що поріг, який я хотів би використати для класифікації присутності від передбачуваних ймовірностей, становить 0,7, а не за замовчуванням 0,5. Я абсолютно не розумію, що робити з цією інформацією. Чи просто я використовую цей поріг при створенні карти мого виводу? Я міг би легко створити відображений на карті вихід з постійними ймовірностями, а потім просто перекласифікувати ті, у кого значення більше 0,7, а такі <0,7 як відсутні.
Або я хочу взяти цю інформацію та запустити своє моделювання randomForests, використовуючи параметр cut-off? Що саме робить параметр відсічення? Чи змінює це результат голосування? (наразі каже, що це "більшість"). Як використовувати цей параметр відсікання? Я не розумію документацію! Дякую!