Схоже, ви розумієте, що ви здатні мати n
рівні на відміну від n-1
, тому що на відміну від лінійної регресії вам не потрібно турбуватися про ідеальну узгодженість.
(Я підходжу до цього з точки зору R, але я припускаю, що це так само в Python.) Це залежить від пари речей, таких як 1) який пакунок ви використовуєте та 2) скільки факторів у вас є.
1) Якщо ви використовуєте randomForest
пакет R , то, якщо у вас є <33 коефіцієнт, тоді ви можете продовжити і залишити їх в одній функції, якщо хочете. Це тому, що у випадковій реалізації лісу R він перевірить, які рівні факторів повинні бути на одній стороні розколу, а на іншій (наприклад, 5 ваших рівнів можуть бути згруповані разом з лівого боку, а 7 може бути згруповано разом праворуч). Якщо ви розділите категоричну особливість на n
манекени, то алгоритм не мав би цієї опції у своєму розпорядженні.
Очевидно, якщо конкретний пакет, який ви використовуєте, не може впоратися з категоричними ознаками, тоді вам просто потрібно буде створити n
фіктивні змінні.
2) Як я вже нагадав вище, випадкова реалізація лісу R може обробляти лише 32 рівні фактора - якщо у вас є більше, то вам потрібно або розділити фактори на менші підмножини, або створити фіктивну змінну для кожного рівня.
randomForest
кодуються автоматично, я повинен піти зn
манекенами, оскільки колінеарність не є проблемою для РФ?