Чому проксимальний градієнтний спуск замість простих субградієнтних методів для Лассо?


9

Я думав вирішити Лассо за допомогою градієнтних методів ванілі. Але я читав людей, які пропонують використовувати проксимальний градієнтний спуск. Чи може хтось виділити, чому для Лассо застосовують проксимальний ГД замість методів градієнта ванілі?

Відповіді:


14

Орієнтовне рішення справді можна знайти для ласо з використанням градієнтних методів. Наприклад, скажімо, що ми хочемо мінімізувати наступну функцію втрат:

f(ш;λ)=у-Хш22+λш1

Градієнт строку покарання становить для і для , але строк покарання не є диференціальним при . Натомість ми можемо використовувати підградієнт , який однаковий, але має значення для .-λшi<0λшi>00λгуг(ш)0шi=0

Відповідним субградієнтом функції втрати є:

г(ш;λ)=-2ХТ(у-Хш)+λгуг(ш)

Ми можемо мінімізувати функцію втрат, використовуючи підхід, схожий на спуск градієнта, але використовуючи підградієнт (який повсюдно дорівнює градієнту, крім , де градієнт не визначений). Рішення може бути дуже близьким до справжнього рішення ласо, але може не містити точних нулів - там, де ваги повинні були дорівнювати нулю, натомість вони приймають надзвичайно малі значення. Ця відсутність справжньої розрідженості є однією з причин не використовувати субградієнтні методи для ласо. Спеціалізовані розв'язувачі використовують перевагу структури проблеми, щоб обчислювати ефективні розрізнені рішення. Це повідомлення0говорить, що, окрім створення розріджених рішень, виділені методи (включаючи методи проксимального градієнта) мають більш високу швидкість конвергенції, ніж субградієнтні методи. Він дає кілька посилань.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.