У процедурі rpart () для створення моделей CART ви вказуєте параметр складності, до якого потрібно обрізати дерево. Я бачив дві різні рекомендації щодо вибору параметра складності:
Виберіть параметр складності, пов'язаний з мінімально можливою перехресною вадою помилки. Цей метод рекомендують Quick-R та HSAUR.
Виберіть параметр найбільшої складності, чия оціночна перехресна перевірена помилка все ще знаходиться в межах SE від мінімально можливої поперечно підтвердженої помилки. Це моя інтерпретація пакетної документації, в якій сказано: "Хороший вибір cp для обрізки - це найменше ліве значення, для якого середнє значення лежить нижче горизонтальної лінії" стосовно посилання на цей сюжет .
Два варіанти cp дають зовсім різні дерева в моєму наборі даних.
Здається, що перший метод завжди створить більш складне, потенційно переозброєне дерево. Чи є в літературі інші переваги, недоліки, рекомендації тощо. Я повинен враховувати, вирішуючи, який метод використовувати? Я можу надати більше інформації про мою конкретну проблему моделювання, якщо це буде корисно, але я намагаюся зробити це питання досить широким, щоб бути актуальним для інших.
party
пакет, який використовує тести на значущість (зазвичай це не те, що я рекомендую, але тут здається доречним). Як завжди, найкращим тестом є корисність та розум; це особливо вірно, якщо вас в основному цікавлять пояснення.