Чи не будуть сильно корельовані змінні у випадковій лісовій деформації точності та вибору ознак?


32

На моє розуміння, сильно корельовані змінні не спричинять проблем мультиколінеарності у випадковій лісовій моделі (Будь ласка, виправте мене, якщо я помиляюся). Однак, з іншого боку, якщо у мене буде занадто багато змінних, що містять подібну інформацію, чи буде вага цієї моделі занадто великою, ніж інші?

Наприклад, є два набори інформації (A, B) з однаковою силою прогнозування. Змінна , , ... всі містять інформацію A, і тільки Y містить інформацію B. Коли випадкові вибіркові величини будуть рости більшістю дерев на інформації A, і в результаті інформація B не повністю зафіксована?X1X2X1000

Відповіді:


19

Це правильно, але, отже, у більшості підвідборок, де була доступна змінна Y, це призведе до найкращого можливого розбиття.

Ви можете спробувати збільшити мтри, щоб переконатися, що це відбувається частіше.

Ви можете спробувати або рекурсивну кореляційну обрізку, тобто по черзі, щоб видалити одну з двох змінних, які разом мають найвищу кореляцію. Розумним порогом для припинення цієї обрізки може бути те, що будь-яка пара кореляцій (груша) нижчеR2<.7

Ви можете спробувати рекурсивну обрізку за зміною важливістю, тобто по черзі для видалення, наприклад, 20% з найменшою важливістю змінної. Спробуйте, наприклад, rfcv з пакету randomForest.

Ви можете спробувати декомпозицію / агрегацію зайвих змінних.


3
У деяких джерелах я бачив multicollinearity, що НЕ впливає на випадкову лісову модель. Наприклад, тут найбільш відповідна відповідь говорить про те, що "жодна частина випадкової лісової моделі не шкодить висококолінеарним змінним". Чи має це чинність?
Хань

5
Я думаю, що ви читаєте NO занадто буквально. Моделі РФ обробляють досить добре корельовані / надлишкові змінні, так. Але це не означає, що ваша модель обов'язково отримує перевагу від приховування непов'язаних або зовсім зайвих змінних (наприклад, лінійних рекомбінацій), і вона не руйнується. Я виступаю лише за скромний вибір змінних, щоб очікувати помірного покращення ефективності перехресної перевірки.
Soren Havelund Welling

24

Стара нитка, але я не погоджуюсь із загальною заявою про те, що колінеарність не є проблемою для випадкових лісових моделей. Коли набір даних має дві (або більше) корельованих ознак, то з точки зору моделі, будь-яка з цих корельованих ознак може використовуватися як предиктор, не маючи конкретних переваг однієї над іншими.

Однак, коли один із них використовується, важливість інших значно знижується, оскільки фактично нечистота, яку вони можуть видалити, вже видаляється за першою ознакою.

Як наслідок, вони матимуть меншу важливість. Це не проблема, коли ми хочемо використовувати функцію вибору функцій для зменшення перевиконання, оскільки має сенс видалити функції, які здебільшого дублюються іншими функціями, але, інтерпретуючи дані , це може призвести до неправильного висновку, що однією зі змінних є сильний провісник, тоді як інші в одній групі неважливі, хоча насправді вони дуже близькі за своїми стосунками зі змінною відповіді.

Ефект від цього явища дещо зменшується завдяки випадковому вибору ознак при кожному створенні вузла, але загалом ефект не знімається повністю.

Вищенаведене здебільшого наводиться звідси: Вибір хороших функцій


3
Це було моїм переходом до статті щодо вибору функцій з РФ, оскільки змінна важливість часто використовується як метрична bmcbioinformatics.biomedcentral.com/articles/10.1186/… З двох років тому я став більш скептично ставитись до вибору особливостей. -визначення, якщо це не робиться у відповідному зовнішньому циклі перехресної перевірки. Якщо це зроблено правильно, я часто не бачу жодної або лише невеликої оптимізації показників прогнозування. Зараз я в основному використовую вибір функцій, щоб спростити машини прогнозування у виробництві або зробити остаточну модель більш прозорою.
Сорен Хавелунд Веллінг

@SorenHavelundWelling - Ви говорите, що "Вибір функцій дає надмірну перехресну перевірку, якщо її не зробити у відповідному зовнішньому циклі перехресної перевірки". Чи можете ви пояснити це чи звернутися до джерела, що пояснює це? Це суперечить усьому, що я читав досі ...
Джек Флітінг,

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.