Я фактично пишу реалізацію випадкових лісів, але я вважаю, що питання стосується дерев рішень (незалежно від РФ).
Отже, контекст полягає в тому, що я створюю вузол у дереві рішень, і змінні прогнозування, і цілі є безперервними. Вузол має розділений поріг для даних розділів на два набори, і я створюю новий прогноз для кожного підмножини на основі середнього цільового значення в кожному наборі. Це правильний підхід?
Причина, яку я запитую, полягає в тому, що при прогнозуванні бінарних змінних я вважаю, що типовим (правильним?) Підходом є поділ даних на 0 та 1 підмножини, не беручи середнього значення за рядками даних у кожному підмножині. Подальші розбиття поділяться на більш дрібнозернисті підмножини та беруть середнє значення при кожному розбитті результатів наступних розщеплень (опускаючи вниз дерево рішень), що діють на теперішні постійні змінні, а не на бінарні змінні (адже ми працюємо на залишкових значеннях помилок замість вихідних цілі).
Побічне запитання: Чи є різниця між двома підходами (бінарний проти безперервного) важливою - чи вони насправді дадуть однакові результати для повного дерева рішень?