Я застосовую алгоритм випадкового лісу як класифікатор до набору даних мікромасив, які розділені на дві відомі групи з 1000-ма функціями. Після початкового запуску я переглядаю важливість функцій і знову запускаю алгоритм дерева з 5, 10 та 20 найважливішими функціями. Я вважаю, що для всіх функцій, топ-10 та 20, показник помилок OOB становить 1,19%, а для 5-ти найкращих - 0%. Мені це здається протиінтуїтивним, тому мені було цікаво, чи можете ви пояснити, чи я щось пропускаю, чи я використовую неправильну метрику.
Я використовую пакет randomForest в R з ntree = 1000, nodesize = 1 і mtry = sqrt (n)