Спосіб побудови випадкових лісів інваріантний монотонним перетворенням незалежних змінних. Розщеплення будуть повністю аналогічними. Якщо ви просто прагнете до точності, ви не побачите жодного покращення в цьому. Насправді, оскільки випадкові ліси здатні знаходити складні нелінійні відносини (чому ви називаєте цю лінійну регресію?) Та змінну взаємодію на ходу, якщо ви перетворите свої незалежні змінні, ви можете згладити інформацію, яка дозволяє цьому алгоритму робити це правильно.
Іноді випадкові ліси не трактуються як чорний ящик і використовуються для умовиводу. Наприклад, ви можете інтерпретувати заходи важливості змінної, які вона надає, або обчислити якісь граничні ефекти вашої незалежної змінної на залежну змінну. Зазвичай це візуалізується як графіки часткової залежності. Я впевнений, що на цю останню річ сильно впливає масштаб змінних, що є проблемою при спробі отримати інформацію більш описового характеру з Випадкових лісів. У цьому випадку це може допомогти вам перетворити змінні (стандартизувати), що може зробити схеми часткової залежності порівнянними. Не повністю впевнений у цьому, доведеться подумати над цим.
Не так давно я намагався передбачити дані підрахунку за допомогою Random Forest, регресування на квадратному корені та природний журнал залежної змінної допомогли трохи, не дуже, і недостатньо, щоб дозволити мені зберегти модель.
Деякі пакети, де ви можете використовувати випадкові ліси для висновку:
https://uc-r.github.io/lime
https://cran.r-project.org/web/packages/randomForestExplainer/index.html
https://pbiecek.github.io/DALEX_docs/2-2-useCaseApartmetns.html