Це звучить як відповідна проблема для ласо і друзів, які роблять усадку і змінюють вибір. Елементи статистичного навчання описують ласо та еластичну сітку для регресії та, що більш актуально для цієї проблеми, логістичну регресію.
Автори книги зробили ефективну реалізацію сітки та еластичної сітки, доступної у вигляді пакету R під назвою glmnet . Раніше я використовував цей пакет для аналізу двійкових даних з матрицями даних приблизно в 250 000 рядків, хоч дещо менше стовпців, але фактично виконував регресії всіх стовпців проти всіх інших стовпців. Якщо матриця даних також є рідкою, реалізація може скористатися і цим, і я вважаю, що метод може реально працювати для повного набору даних ОП. Ось кілька коментарів щодо ласо:
- Лассо досягає вибору змінної, використовуючи функцію штрафу, яка є негладкою ( ), яка, як правило, призводить до оцінки параметрів, де деякі параметри точно рівні 0. Скільки ненульових параметрів оцінюється і скільки ненульові параметри стискаються, визначається параметром настройки. Ефективність реалізації в glmnet значною мірою залежить від того, що для великого штрафу лише декілька параметрів відрізняються від 0.ℓ1
- Вибір параметра настройки часто проводиться шляхом перехресної перевірки, але навіть без кросу перехресної перевірки метод може бути в змозі надати гарну послідовність вибраних змінних, індексованих параметром штрафу.
- З іншого боку, для вибору змінних полягає в тому, що ласо може бути нестабільним у відборі змінних, зокрема, якщо вони дещо співвідносяться. Для покращення цієї нестабільності було винайдено більш загальне пружне чисте покарання, але воно не вирішує проблему повністю. Адаптивна ласо - це ще одна ідея, яка покращиться при виборі змінної для ласо.
- Вибір стабільності - це загальний метод, запропонований Майнсхаузеном та Бюльманом для досягнення більшої стабільності вибраних змінних за допомогою таких методів, як ласо. Він вимагає певної кількості підходів до підпроборів набору даних і, як такий, набагато більш обчислювальний.
- Розумний спосіб мислення Лассо - це метод генерування одновимірного набору "хороших" моделей, починаючи від однозмінної моделі до більш складної моделі (не обов'язково включаючи всі змінні), параметризованої параметром штрафу. На відміну від цього, уніваріантні фільтри виробляють вибір або замовлення лише хороших одно змінних моделей.
Для Python є впровадження в scikit-learn таких методів, як ласо і еластична сітка.