Ця методологія описана в статті glmnet Шляхи регуляризації узагальнених лінійних моделей через координатний спуск . Хоча методологія тут стосується загального випадку регуляризації і , вона повинна застосовуватися і до LASSO (лише ).L 2 L 1L1L2L1
Рішення для максимуму наведено у розділі 2.5. λ
Коли , з (5) бачимо, що залишиться нульовим, якщо . Звідси ˜ β j1β~=0β~jNαλmax=maxl| ⟨Хл,у⟩|1N|⟨xj,y⟩|<λαNαλmax=maxl|⟨xl,y⟩|
Тобто ми спостерігаємо, що правило оновлення для бета-версії змушує всі оцінки параметрів до нуля для як визначено вище.λ>λmax
Визначення та кількості точок сітки здається менш принциповим. У glmnet вони встановлюють , а потім вибирають сітку з однаково розташованих точок за логарифмічною шкалою. λ m i n = 0,001 ∗ λ m a x 100λminλmin=0.001∗λmax100
Це добре працює на практиці, при моєму широкому використанні glmnet я ніколи не вважав, що ця сітка є занадто грубою.
У LASSO ( ) лише кращі речі працюють краще, оскільки метод LARS забезпечує точний розрахунок того, коли в модель увійдуть різні предиктори. Справжній LARS не здійснює пошук по сітці через , а створює точне вираження для шляхів рішення для коефіцієнтів.
Ось докладний погляд на точний розрахунок шляхів коефіцієнта у випадку двох прогнозів. λL1λ
Справа для нелінійних моделей (тобто логістичних, пуассонових) складніше. На високому рівні спочатку отримується квадратичне наближення до функції втрат за початковими параметрами , а потім обчислення вище використовується для визначення . Точний розрахунок шляхів параметрів неможливий у цих випадках, навіть якщо передбачено лише регуляризацію , тому пошук в сітці є єдиним варіантом.λ m a x L 1β=0λmaxL1
Зразок ваги також ускладнює ситуацію, внутрішні вироби необхідно замінити у відповідних місцях зваженими внутрішніми виробами.