У мене виникають проблеми з розумінням кривої ROC.
Чи є якась перевага / покращення в області під кривою ROC, якщо я будую різні моделі з кожного унікального підмножини навчального набору і використовую його для створення ймовірності? Наприклад, якщо має значення { , , , , б , б , б , б } , і я побудувати модель А за допомогою від 1-го 4 - го значення у і 8-го 9 - значення у і будувати модель B за допомогою даних, що залишилися на поїзді. Нарешті, генеруйте ймовірність. Будь-які думки / коментарі будуть дуже вдячні.
Ось r-код для кращого пояснення мого питання:
Y = factor(0,0,0,0,1,1,1,1)
X = matirx(rnorm(16,8,2))
ind = c(1,4,8,9)
ind2 = -ind
mod_A = rpart(Y[ind]~X[ind,])
mod_B = rpart(Y[-ind]~X[-ind,])
mod_full = rpart(Y~X)
pred = numeric(8)
pred_combine[ind] = predict(mod_A,type='prob')
pred_combine[-ind] = predict(mod_B,type='prob')
pred_full = predict(mod_full, type='prob')
Так що моє запитання, площа під ROC кривої pred_combine
VS pred_full
.