Я намагався використовувати імпорт функцій з Random Forests, щоб здійснити деякий емпіричний вибір функції для проблеми регресії, де всі функції є категоричними і багато з них мають багато рівнів (порядку 100-1000). Зважаючи на те, що одне гаряче кодування створює фіктивну змінну для кожного рівня, імпорт функцій - для кожного рівня, а не для кожної функції (стовпця). Який хороший спосіб об'єднати ці функції?
Я думав про підсумовування або отримання середнього значення для всіх рівнів функції (можливо, колишній буде упередженим щодо тих рис, що мають більше рівнів). Чи є посилання на це питання?
Що ще можна зробити, щоб зменшити кількість функцій? Я знаю груповий ласо, не міг знайти нічого простого для використання в науці.