Чи потрібні випадкові ліси для введення змінних або масштабування вхідних змінних?


16

Мої вхідні змінні мають різні розміри. Деякі змінні десяткові, а деякі сотні. Чи важливо централізувати (віднімати середнє значення) або масштабувати (поділити на стандартне відхилення) ці вхідні змінні, щоб зробити дані безрозмірними при використанні випадкових лісів?

Відповіді:


30

Ні.

Випадкові ліси засновані на алгоритмах розподілу дерев.

Таким чином, в загальних стратегіях регресії немає аналога отриманому коефіцієнту, який залежав би від одиниць незалежних змінних. Натомість отримують колекцію правил розділів, в основному це рішення, що має поріг, і це не повинно змінюватися масштабуванням. Іншими словами, дерева бачать лише ряди за ознаками.

По суті, будь-яке монотонне перетворення ваших даних взагалі не повинно змінювати ліс (у найбільш поширених реалізаціях).

Також дерева рішень зазвичай стійкі до числових нестабільності, які іноді погіршують конвергенцію та точність в інших алгоритмах.


0

Загалом я погоджуюся з Firebug, але може бути певна цінність у стандартизації змінних, якщо вас цікавлять показники важливості прогнозованого показника. РФ прагне віддавати перевагу дуже мінливим безперервним предикторам, оскільки є більше можливостей для поділу даних. Однак кращим способом вирішити цю проблему є використання конкретних підходів (тобто відбору проб без заміни з використанням умовних лісів), які є більш стійкими до цього упередження. Дивіться https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25


1
Ласкаво просимо на сайт. Ми намагаємось створити постійний сховище високоякісної статистичної інформації у вигляді запитань та відповідей. Таким чином, ми насторожено ставимося до відповідей, що стосуються лише посилань, завдяки linkrot. Чи можете ви опублікувати повне цитування та резюме інформації за посиланням, якщо вона загине?
gung - Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.