У випадковому лісі більший чи гірший% IncMSE?


17

Після того, як я побудував (регресійну) випадкову лісову модель в R, виклик rf$importanceнадає мені два заходи для кожної змінної предиктора %IncMSEта IncNodePurity. Чи є інтерпретація, що змінні предиктора з меншими %IncMSEзначеннями важливіші, ніж змінні предиктора з більшими %IncMSEзначеннями?

Як щодо IncNodePurity?

Відповіді:


30

% IncMSE є найбільш надійним та інформативним заходом. Це збільшення mse передбачень (оцінюється за межами КВ) в результаті перестановки змінної j (значення випадковим чином переміщуються).

  1. рости регресійний ліс. Обчисліть OOB-mse, назвіть це mse0.
  2. для 1 до j var: значення перестановки стовпця j, потім передбачити та обчислити OOB-mse (j)
  3. % IncMSE j'th становить (mse (j) -mse0) / mse0 * 100%

чим вище число, тим важливіше

IncNodePurance стосується функції втрат, яку вибирають найкращі розбиття. Функція втрат mse для регресії та gini-домішки для класифікації. Більше корисних змінних досягається більш високе збільшення чистоти вузла, тобто пошук розколу, який має високу "дисперсію" міжвузлів і невелику "дисперсію" внутрішнього вузла. IncNodePurance є упередженою і повинна використовуватися лише в тому випадку, якщо додатковий час обчислення для розрахунку% IncMSE неприйнятний. Оскільки для розрахунку% IncMSE потрібно лише ~ 5-25% додаткового часу, цього майже ніколи не станеться.

Подібне запитання та відповідь

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.