У мене набір даних близько 5000 функцій. Для цих даних я вперше використав тест Chi Square для вибору особливостей; після цього я отримав близько 1500 змінних, які показали залежність значущості від змінної відповіді.
Тепер мені потрібно підходити до цього логістичної регресії. Я використовую пакунок glmulti для R (пакет glmulti забезпечує ефективний вибір підмножини для vlm), але він може використовувати лише 30 функцій одночасно, інакше його продуктивність знижується, оскільки кількість рядків у моєму наборі даних становить близько 20000.
Чи є якийсь інший підхід чи методи вирішення вищезазначених проблем? Якщо я перейду до вищевказаного методу, це знадобиться занадто багато часу, щоб відповідати моделі.
sklearn
's, LogisticRegression
і це вирішує 4000 функцій, 20000 рядків проблеми приблизно за хвилину на моєму ноутбуці.