Створюючи модель CART (конкретно дерево класифікації) за допомогою rpart (в R), часто цікаво знати, яке значення мають різні змінні, що вводяться в модель.
Отже, моє запитання таке: які спільні заходи існують для ранжирування / вимірювання значущості важливості змінних, що беруть участь у моделі CART? І як це можна обчислити за допомогою R (наприклад, при використанні пакету rpart)
Наприклад, ось якийсь фіктивний код, створений, щоб ви могли показати на ньому свої рішення. Цей приклад побудований так, що зрозуміло, що змінні x1 і x2 є "важливими", тоді як (у деякому сенсі) x1 важливіше, ніж x2 (оскільки x1 має застосовуватися до більшої кількості випадків, тим самим зробити більший вплив на структуру даних, то x2).
set.seed(31431)
n <- 400
x1 <- rnorm(n)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
x5 <- rnorm(n)
X <- data.frame(x1,x2,x3,x4,x5)
y <- sample(letters[1:4], n, T)
y <- ifelse(X[,2] < -1 , "b", y)
y <- ifelse(X[,1] < 0 , "a", y)
require(rpart)
fit <- rpart(y~., X)
plot(fit); text(fit)
info.gain.rpart(fit) # your function - telling us on each variable how important it is
(посилання завжди вітаються)