Я намагаюся знайти спосіб зменшення кількості категорій у номінальних чи порядкових даних.
Наприклад, скажімо, що я хочу побудувати регресійну модель на наборі даних, яка має ряд номінальних та порядкових факторів. Хоча у мене немає проблем з цим кроком, я часто стикаюся з ситуаціями, коли номінальна функція не має спостережень у навчальному наборі, але згодом існує у наборі даних перевірки. Це природно призводить до помилок, коли модель представлена (поки що) невидимими випадками. Ще одна ситуація, коли я хотів би поєднувати категорії, це просто, коли занадто багато категорій з малою кількістю спостережень.
Отже, мої запитання:
- Хоча я усвідомлюю, що може бути найкраще поєднувати багато номінальних (і порядкових) категорій на основі попередньої реальної відомості, яку вони представляють, чи є систематичні методи (
R
бажано пакети)? - Які вказівки та рекомендації ви б зробили щодо граничних порогових значень тощо?
- Які найпопулярніші рішення в літературі?
- Чи є інші стратегії, ніж поєднання малих номінальних категорій до нової, "ДРУГОЇ" категорії?
Будь ласка, не соромтесь звучати, якщо у вас є й інші пропозиції.