Мені відомо про той факт, що категоричні змінні з k рівнями повинні бути кодовані змінними k-1 у фіктивній кодування (аналогічно для багатозначних категоріальних змінних). Мені було цікаво, якою проблемою є однокольорове кодування (тобто замість цього k змінних) через кодове кодування для різних методів регресії, в основному лінійної регресії, пеналізованої лінійної регресії (Lasso, Ridge, ElasticNet), на основі дерев (випадкові ліси , машини для підвищення градієнта).
Я знаю, що в умовах лінійної регресії виникають проблеми мультиколінеарності (навіть хоча на практиці я застосовував лінійну регресію з використанням OHE без будь-яких проблем).
Однак чи потрібно використовувати кодексійне кодування у всіх них, і наскільки помилковими будуть результати, якщо використовується однокольорове кодування?
Моя увага зосереджена на прогнозуванні в регресійних моделях з декількома категоричними змінними (висока кардинальність), тому мене не цікавлять інтервали довіри.