Все в заголовку, чи є сенс використовувати підбір функції перед використанням випадкових лісів?
Все в заголовку, чи є сенс використовувати підбір функції перед використанням випадкових лісів?
Відповіді:
Так, це так, і це досить часто. Якщо ви очікуєте, що більше ~ 50% ваших функцій навіть не є зайвими, але абсолютно марними. Наприклад, пакет randomForest має функцію обгортки rfcv (), яка буде шукати randomForest і опускати найменш важливі змінні. Функція rfcv див. у цьому розділі . Не забудьте вставити вибір функції + моделювання у зовнішній цикл перехресної перевірки, щоб уникнути надмірних результатів.
[редагувати нижче]
Я міг би поміркувати "зовсім марно". Один випадковий ліс найчастіше не буде таким, як, наприклад, регресія з ласо-регуляризацією повністю ігнорує особливості, навіть якщо ці (за імітацією заднього огляду) були випадковими ознаками. Розбиття дерева рішень за ознаками вибираються за місцевими критеріями в будь-якому з тисяч або мільйонів вузлів і пізніше їх не можна скасувати. Я не прихильник скорочення функцій до одного вищого вибору, але за деякими наборами даних можна досягти значного збільшення продуктивності прогнозування (оцінюється повторною зовнішньою перехресною валідацією) за допомогою цієї вибірної змінної. Типовим висновком буде те, що збереження 100% функцій або лише кілька відсотків працює менш добре, і тоді може бути широкий середній діапазон з аналогічними прогнозованими показниками ефективності.
Можливо, розумне правило великого пальця: Коли можна очікувати, що регуляризація, схожа на ласо, буде служити кращою, ніж конькована регуляризація для даної проблеми, тоді можна спробувати попередньо тренуватися випадковим лісом і класифікувати особливості за внутрішнім поза мешком перехресне підтвердження змінної важливості та спробуйте скинути деякі найменш важливі функції. Змінна важливість кількісно визначає, наскільки зменшується перехресне затверджене модельне прогнозування, коли дана функція перестановлена (значення перетасовуються) після тренування, перед прогнозуванням. Ніколи не буде точно, якщо одна конкретна особливість повинна бути включена чи ні, але, ймовірно, набагато простіше передбачити найкращі 5% функцій, ніж нижчі 5%.
З практичної точки зору, обчислювальний час роботи може бути скорочений, і, можливо, деякі ресурси можуть бути збережені, якщо є фіксована вартість придбання на одну функцію.