Як вибрати кількість розщеплень у rpart ()?


9

Я використовував rpart.controlдля minsplit=2та отримав наступні результати від rpart()функції. Щоб уникнути перевиконання даних, чи потрібно мені використовувати розбивки 3 або розбивки 7? Чи не слід використовувати спліт 7? Будь ласка, дай мені знати.

Змінні, які фактично використовуються в будівництві дерев:

[1] ct_a ct_b usr_a

Root node error: 23205/60 = 386.75

n= 60        

    CP nsplit rel error  xerror     xstd
1 0.615208      0  1.000000 1.05013 0.189409
2 0.181446      1  0.384792 0.54650 0.084423
3 0.044878      2  0.203346 0.31439 0.063681
4 0.027653      3  0.158468 0.27281 0.060605
5 0.025035      4  0.130815 0.30120 0.058992
6 0.022685      5  0.105780 0.29649 0.059138
7 0.013603      6  0.083095 0.21761 0.045295
8 0.010607      7  0.069492 0.21076 0.042196
9 0.010000      8  0.058885 0.21076 0.042196

1
Я відповів на це в подальшому описі, який ви опублікували в попередньому запитанні. Враховуючи, що в цьому не було потреби. Я згадував, що ви не повинні редагувати питання Q для подальшого контролю для подальшого використання !
Гавін Сімпсон,

1
Щоб уникнути пошуку відповідного питання в майбутньому, ось посилання на попередній Q: stats.stackexchange.com/questions/13446/… .
chl

Відповіді:


10

Конвенція полягає у використанні найкращого дерева (найнижча відносна помилка перехресного підтвердження) або найменшого (найпростішого) дерева в межах однієї стандартної помилки найкращого дерева. Найкраще дерево знаходиться у рядку 8 (7 розщеплень), але дерево у рядку 7 (6 розщеплень) виконує фактично ту саму роботу ( xerrorдля дерева в рядку 7 = 0,21761, що в межах (менше, ніж) xerrorнайкращого дерева плюс одного стандарту помилка xstd,, (0,21076 + 0,042196) = 0,252956) і простіша, отже, 1 стандартне правило про помилку вибрало б його.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.