Я працюю над набором даних з 200 000+ зразків і приблизно 50 особливостей на вибірку: 10 безперервних змінних, а інші ~ 40 - категоричні змінні (країни, мови, наукові галузі тощо). Для цих категоричних змінних у вас є, наприклад, 150 різних країн, 50 мов, 50 наукових галузей тощо ...
Поки мій підхід:
Для кожної категоріальної змінної з багатьма можливими значеннями візьміть лише ту, що має більше 10000 вибірки, яка приймає це значення. Це зменшує до 5-10 категорій замість 150.
Побудуйте змінну манекена для кожної категоріальної (якщо 10 країн, то для кожного зразка додайте бінарний вектор розміром 10).
Подайте випадкові класифікатори лісу (перехресне підтвердження параметрів тощо ...) цими даними.
В даний час при такому підході мені вдається лише отримати 65% точності, і я відчуваю, що можна зробити більше. Особливо мене не влаштовує 1), оскільки я відчуваю, що не повинен довільно видаляти "найменш відповідні значення" відповідно до кількості вибірки, оскільки вони мають менш дискримінаційні значення. З іншого боку, моя оперативна пам'ять не може дозволити додати до даних 500 стовпців * 200000 рядків, зберігаючи всі можливі значення.
Чи хотіли б ви порадитись із цією категоричною змінною?