Який вибір змінної / ознак, який ви віддаєте перевагу для двійкової класифікації, коли в навчальному наборі є набагато більше змінних / ознак, ніж спостереження? Метою тут є обговорення того, яка процедура вибору ознак дозволяє зменшити найкращу помилку класифікації.
Ми можемо виправити позначення на послідовність: для , нехай є навчальним набором спостережень із групи . Отже - це розмір навчального набору. Встановлюємо як кількість ознак (тобто розмірність простору ознак). Нехай позначає - ту координату .{ x i 1 , … , x i n i } i n 0 + n 1 = n p x [ i ] i x ∈ R p
Будь ласка, дайте повні посилання, якщо ви не можете вказати деталі.
EDIT (оновлюється постійно): процедури, запропоновані у відповідях нижче
- Жадібний відбір вперед Змінна процедура вибору для двійкової класифікації
- Елімінація зворотного типу Змінна процедура вибору для двійкової класифікації
- Сканування мегаполісу / MCMC Змінна процедура вибору для двійкової класифікації
- пенізована логістична регресія Варіант вибору для двійкової класифікації
Оскільки це вікі спільноти, можливо більше обговорення та оновлення
У мене є одне зауваження: у певному сенсі ви всі даєте процедуру, яка дозволяє упорядкувати змінні, а не вибір змінних (ви досить ухиляєтесь від того, як вибрати кількість функцій, я думаю, ви всі використовуєте перехресну перевірку?) Чи можете ви вдосконалити відповіді в цьому напрямку? (оскільки це вікі спільноти, вам не потрібно бути письменником відповідей, щоб додати інформацію про те, як вибрати кількість змінних? Я тут відкрив питання в цьому напрямку. Перехресне підтвердження в дуже великому вимірі (щоб вибрати кількість використовувані змінні в дуже високій розмірній класифікації) )