Вибір діапазону та щільності сітки для параметра регуляризації в LASSO


12

Я зараз вивчаю LASSO (найменш абсолютний оператор усадки та відбору). Я бачу, що оптимальне значення параметра регуляризації можна вибрати шляхом перехресної перевірки. Я бачу також у регресії хребта та багатьох методах, які застосовують регуляризацію, ми можемо використовувати CV для того, щоб знайти оптимальний параметр регуляризації (кажучи, штраф). Тепер моє запитання стосується початкових значень верхньої та нижньої межі параметра та того, як визначити довжину послідовності.

Для конкретності, припустимо, у нас є проблема LASSO і ми хочемо знайти оптимальне значення для штрафу . Тоді як ми можемо вибрати нижню та верхню межі для ? і скільки розщеплення між цими двома значеннями ? λ λ [ a = ? , b = ? ] ( б - а )

LogLikelihood=(yxβ)(yxβ)+λ|β|1
λλ[a=?,b=?](ba)k=?

Пов'язані питання тут .
Річард Харді

Відповіді:


13

Ця методологія описана в статті glmnet Шляхи регуляризації узагальнених лінійних моделей через координатний спуск . Хоча методологія тут стосується загального випадку регуляризації і , вона повинна застосовуватися і до LASSO (лише ).L 2 L 1L1L2L1

Рішення для максимуму наведено у розділі 2.5. λ

Коли , з (5) бачимо, що залишиться нульовим, якщо . Звідси ˜ β j1β~=0β~jNαλmax=maxl| Хл,у|1N|xj,y|<λαNαλmax=maxl|xl,y|

Тобто ми спостерігаємо, що правило оновлення для бета-версії змушує всі оцінки параметрів до нуля для як визначено вище.λ>λmax

Визначення та кількості точок сітки здається менш принциповим. У glmnet вони встановлюють , а потім вибирають сітку з однаково розташованих точок за логарифмічною шкалою. λ m i n = 0,001 λ m a x 100λminλmin=0.001λmax100

Це добре працює на практиці, при моєму широкому використанні glmnet я ніколи не вважав, що ця сітка є занадто грубою.

У LASSO ( ) лише кращі речі працюють краще, оскільки метод LARS забезпечує точний розрахунок того, коли в модель увійдуть різні предиктори. Справжній LARS не здійснює пошук по сітці через , а створює точне вираження для шляхів рішення для коефіцієнтів. Ось докладний погляд на точний розрахунок шляхів коефіцієнта у випадку двох прогнозів. λL1λ

Справа для нелінійних моделей (тобто логістичних, пуассонових) складніше. На високому рівні спочатку отримується квадратичне наближення до функції втрат за початковими параметрами , а потім обчислення вище використовується для визначення . Точний розрахунок шляхів параметрів неможливий у цих випадках, навіть якщо передбачено лише регуляризацію , тому пошук в сітці є єдиним варіантом.λ m a x L 1β=0λmaxL1

Зразок ваги також ускладнює ситуацію, внутрішні вироби необхідно замінити у відповідних місцях зваженими внутрішніми виробами.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.