У мене є набір даних з 330 зразками та 27 функцій для кожного зразка, з проблемою бінарного класу для логістичної регресії.
Відповідно до "правила, якщо десять", для кожної функції мені потрібно принаймні 10 подій. Хоча я маю незбалансований набір даних із 20% o позитивним класом і 80% негативним класом.
Це дає мені лише 70 подій, що дозволяє приблизно 7/8 функцій бути включеними в логістичну модель.
Я хотів би оцінити всі функції як предиктори, я не хочу вручну вибирати будь-які функції.
То що б ви запропонували? Чи варто зробити всі можливі 7 комбінацій функцій? Чи варто оцінювати кожну особливість окремо за допомогою моделі асоціацій, а потім вибирати лише найкращі для остаточної моделі?
Мені також цікаво керованість категоричними та безперервними функціями, чи можу я їх змішати? Якщо у мене є категоричний [0-1] і безперервний [0-100], чи слід нормалізувати?
Зараз я працюю з Python.
Дякую за допомогу!