Я, мабуть, маю справу з проблемою, яка, ймовірно, була вирішена сто разів раніше, але я не знаю, де знайти відповідь.
Використовуючи логістичну регресію, враховуючи багато функцій і намагаючись передбачити двійкове категоричне значення , мені цікаво вибрати підмножину функцій, яка прогнозує добре.y
Чи існує процедура, схожа на ласо, яку можна використовувати? (Я бачив лише ласо, що використовується для лінійної регресії.)
Чи дивиться на коефіцієнти приталеної моделі вказівку на важливість різних ознак?
Редагувати - Уточнення після ознайомлення з деякими відповідями:
Коли я маю на увазі величину пристосованих коефіцієнтів, я маю на увазі ті, які підходять до нормалізованих (середнє значення 0 та дисперсія 1) ознак. Інакше, як зазначає @probabilityislogic, 1000x виявиться менш важливим, ніж x.
Мені не цікаво просто знайти найкращий k-підмножину (як пропонував @Davide), а скоріше зважувати важливість різних функцій відносно один одного. Наприклад, одна особливість може бути "вік", а інша особливість "вік> 30". Їх додаткове значення може бути невеликим, але обидва можуть бути важливими.