У мене є набір даних з переважно фінансовими змінними (120 функцій, приклади 4 к), які в основному є дуже корельованими та дуже галасливими (наприклад, технічні показники), тому я хотів би вибрати приблизно 20-30 для подальшого використання при навчанні моделі (двійкова класифікація - збільшення / зменшення).
Я думав про використання випадкових лісів для ранжирування ознак. Чи корисно використовувати їх рекурсивно? Наприклад, скажімо, що в першому раунді я скидаю найгірші 20%, другий теж тощо, поки не отримаю потрібну кількість функцій. Чи варто використовувати перехресну перевірку з РФ? (Для мене інтуїтивно не використовувати резюме, тому що це вже майже те, що вже робить РФ.)
Крім того, якщо я йду зі випадковими лісами, чи варто використовувати їх як класифікатори для двійкових чи регресорів для фактичного збільшення / зменшення для отримання імпортних ознак?
До речі, моделями, які я хотів би спробувати після вибору особливостей, є: SVM, нейронні мережі, локально зважені регресії та випадковий ліс. Я в основному працюю в Python.
built-in
атрибут RandomForestClassifier в sklearn
називається feature_importances_
....? Ви побачите це за посиланням.