Моя початкова реакція на це запитання полягала в тому, що воно не виявило великих зусиль у дослідженні, оскільки "всі" знають, що випадкові ліси не обробляють відсутні значення в прогнозах. Але під час перевірки ?randomForest
я повинен визнати, що це могло б бути набагато чіткішим щодо цього.
(Хоча PDF-файл Бреймана, на який посилається в документації, прямо говорить, що відсутні значення просто не обробляються взагалі.)
Єдиний очевидний підказка в офіційній документації, яку я міг бачити, - це значення за замовчуванням для na.action
параметра na.fail
, яке може бути занадто загадковим для нових користувачів.
У будь-якому випадку, якщо у ваших предикторах відсутні значення, у вас є (в основному) два варіанти:
- Використовуйте інший інструмент (
rpart
чудово обробляє відсутні значення).
- Введіть відсутні значення
Не дивно, що randomForest
пакет має функцію робити саме це rfImpute
,. Документація at ?rfImpute
проходить через базовий приклад її використання.
Якщо лише у невеликій кількості випадків відсутні значення, ви також можете спробувати встановити, na.action = na.omit
щоб просто відкинути ці випадки.
І звичайно, ця відповідь трохи здогадується, що у вашій проблемі насправді є просто відсутність значень.