Найкращі методи вибору ознак для непараметричної регресії


10

Тут питання новачків. В даний час я виконую непараметричну регресію, використовуючи пакет np в Р. У мене є 7 особливостей і за допомогою підходу грубої сили я визначив найкращий 3. Але незабаром у мене буде набагато більше 7 функцій!

Моє питання - які найкращі в даний час методи вибору особливостей для непараметричної регресії. І що, якщо якісь пакети реалізують методи. Дякую.


1
що ти маєш на увазі під "набагато більше" 100? 1000? 10000? 100000?
Робін Жирард

Напевно, у мене буде на замовлення 100 функцій. Але у мене є лише кілька хвилин, щоб прийняти рішення щодо найкращого набору функцій.
jmmcnew

1
Ви пробували ласо або еластичну сітку? пакети: lasso, glmnet. Ці методи можуть "вибрати" деякі змінні в ході руху.
deps_stats

Відповіді:


3

Якщо ідентифікація найбільш релевантних змінних не є ключовою метою аналізу, часто краще взагалі не робити будь-якого вибору ознак і використовувати регуляризацію для запобігання перенастроювання. Вибір функцій є хитрою процедурою, і надто легко переоцінити критерій вибору функції, оскільки існує багато ступенів свободи. LASSO і еластична сітка - хороший компроміс, досягають рідкості за допомогою регуляризації, а не шляхом прямого вибору функцій, тому вони менш схильні до цієї конкретної форми надмірного прилягання.


0

Лассо справді хороший. Прості речі, такі як починати з жодного, і додавати їх по черзі, відсортованих за «корисністю» (за допомогою перехресної перевірки), також працюють досить добре на практиці. Іноді це називається поетапним подальшим вибором.

Зауважте, що проблема вибору підмножини досить незалежна від типу класифікації / регресії. Просто непараметричні методи можуть бути повільними і тому вимагають більш розумних методів відбору.

Книга «Елементи статистичного навчання» Т. Хасті дає хороший огляд.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.