Я використовую випадковий ліс на високомірних згрупованих даних (50 числових вхідних змінних), які мають ієрахічну структуру. Дані були зібрані з 6-ти реплікацій на 30 позиціях 70 різних об'єктів, що призводить до 12600 точок даних, які не є незалежними.
Здається, випадковий ліс надмірно підходить для даних, оскільки помилка oob набагато менша, ніж помилка, яку ми отримуємо під час виходу даних з одного об’єкта під час тренувань, а потім передбачення результату залишеного об'єкта з навченим випадковим лісом. Більше того, я співвідносив залишки.
Я думаю, що перевитрата викликана тим, що випадковий ліс очікує незалежних даних. Чи можна розповісти випадковому лісу про ієрархічну структуру даних? Або існує інший потужний ансамбль чи метод усадки, який може обробляти згруповані дані з великими розмірами з сильною структурою взаємодії?
Будь-який натяк, як я можу зробити краще?