Варіантне значення випадкових Найменше негативних значень


10

Я запитую себе, чи є гарною ідеєю видалити ті змінні зі значенням негативної значущості змінної ("% IncMSE") в контексті регресії. І якщо це дає мені кращий прогноз? Як ти гадаєш?

Відповіді:


5

Змінна важливість у випадкових лісах обчислюється так:

  1. Спочатку MSE моделі розраховується за вихідними змінними
  2. Потім значення одного стовпця перестановляються, і MSE обчислюється знову. Наприклад, якщо стовпець (Col1) приймає значення 1,2,3,4, а випадкова перестановка значень призводить до 4,3,1,2. Це призводить до отримання MSE1. Тоді збільшення MSE, тобто MSE1 - MSE, означало б важливість змінної.

  3. Ми очікуємо, що різниця буде позитивною, але у випадках від’ємного числа це означає, що випадкова перестановка спрацювала краще. Можна зробити висновок, що змінна не грає ролі в передбаченні, тобто не важлива.

Сподіваюся, це допомагає!

Для детального пояснення зверніться до наступного посилання!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean


3

Це може бути просто випадкове коливання (наприклад, якщо у вас невелике ntree).

Якщо ні, то це може показати, що у вас є серйозна кількість парадоксів у ваших даних, тобто пари об'єктів з майже однаковими прогнозами та дуже різними результатами. У цьому випадку я би перевірив двічі, чи модель насправді має сенс, і почав думати, як я міг би отримати більше атрибутів для їх вирішення.


2
Не могли б ви детальніше зупинитися на "парадоксах даних"? Я не зовсім стежив і хотів би зрозуміти, що ти пояснюєш.
JEquihua
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.