Чому glmnet використовує «наївну» еластичну сітку з оригінального паперу Zou & Hastie?


27

β *=(1+λ2) β .

L=1ну-Хβ2+λ1β1+λ2β22,
β^=(1+λ2)β^.

Однак наступні glmnetстатті Фрідмана, Хасті та Тибширані (2010) Шляхи регуляризації для узагальнених лінійних моделей за допомогою координатного спуску не використовували це масштабування і мали лише коротку виноску.

Zou та Hastie (2005) назвали це покарання наївною еластичною сіткою, і віддали перевагу перемальованій версії, яку вони назвали еластичною сіткою. Ми кидаємо тут це відмінність.

Більше ніяких пояснень там не дається (або в будь-якому підручнику Хасті та ін.). Мені це здається дивним. Чи залишили автори рецензування, оскільки вважали це занадто тимчасовим ? бо в деяких подальших експериментах це було гірше? тому що не було зрозуміло, як узагальнити це до справи GLM? Я поняття не маю. Але в будь-якому випадку glmnetпакет став дуже популярним з тих пір, і тому моє враження, що в даний час ніхто не використовує масштабний масштаб від Zou & Hastie, і більшість людей, мабуть, навіть не знають про цю можливість.

Запитання: зрештою, це переосмислення хорошої чи поганої ідеї?

За допомогою glmnetпараметризації масштаб Zou & Hastie повинен бути

β^=(1+λ(1-α))β^.

1
Оскільки в папері з блискавкою мета полягає в тому, щоб пристосувати весь шлях регуляризації, можливо, ідея полягає в тому, що масштабування було б просто монотонним перетворенням шляху?
Метью Друрі

1
@MatthewDrury Це правда, але все ж, якщо Friedman та ін. вважав, що переосмислення - це хороша ідея, вони не залишатимуть її поза папером і, зокрема, поза glmnetкодом. Він не доступний навіть як додаткова функція (їхній попередній код, який супроводжувався документом 2005 року, звичайно підтримує переосмислення).
Амеба каже, що повернеться до Моніки

4
На жаль, загальнодоступний код glmnet є абсолютно нечитабельним ...
Меттью Дрюрі

Відповіді:


25

Я надіслав це запитання на адресу Зу та Хасті, і я отримав таку відповідь від Хасті (я сподіваюся, що він не заперечував би, коли я цитую це тут):

Я думаю, що в Zou et al ми були стурбовані додатковим ухилом, але, звичайно, збільшення шкали збільшує дисперсію. Таким чином, він просто зміщується один по кривій зміщення компромісії. Незабаром ми включимо версію розслабленого ласо, що є кращою формою масштабування.

Я трактую ці слова як схвалення певної форми "переосмислення" ванільного еластичного чистого розчину, але Хасті вже не схожа на конкретний підхід, висунутий у Zou & Hastie 2005.


Далі я коротко перегляну та порівняю декілька варіантів масштабування.

Я буду використовувати glmnetпараметризацію втрати з рішенням позначається як .

L=12ну-β0-Хβ2+λ(αβ1+(1-α)β22/2),
β^
  1. Підхід Zou & Hastie полягає у використанніЗауважте, що це дає деяку нетривіальну шкалу для чистого хребта, коли що, можливо, не має великого сенсу. З іншого боку, це не дає масштабування чистого ласо, коли , незважаючи на різні твердження в літературі, що оцінювач lasso може отримати користь від певного масштабування (див. Нижче).

    β^перероблений=(1+λ(1-α))β^.
    α=0α=1
  2. Для чистого ласо Тибширані запропонував використовувати гібрид lasso-OLS, тобто використовувати оцінювач OLS, використовуючи підмножину предикторів, вибраних ласо. Це робить оцінювач послідовним (але скасовує усадку, що може збільшити очікувану помилку). Можна використовувати той же підхід для еластичної сітки але потенційна проблема полягає в тому, що еластична сітка може вибрати більше, ніж предикторів і OLS будуть руйнуватися (навпаки, чистий ласо ніколи не вибирає більше, ніж предикторів).

    β^еластичний-OLS-гібрид=OLS(Хiβ^i0)
    нн
  3. Розслаблене ласо, згадане в цитованому вище електронному листі Хасті, - це пропозиція запустити ще одне ласо в підмножині передбачувачів, вибраних першим ласо. Ідея полягає у використанні двох різних штрафних санкцій та виборі обох за допомогою перехресної перевірки. Можна застосувати ту саму ідею до еластичної сітки, але для цього, мабуть, потрібні чотири різні параметри регуляризації, і їх налаштування - це кошмар.

    Я пропоную простішу розслаблену еластичну схему: після отримання виконайте регресію хребта з і тим самимβ^α=0λ на вибраному підмножині передбачувачів:Це (а) не вимагає додаткових параметрів регуляризації, (б) працює для будь-якої кількості вибраних предикторів, і (в) нічого не робить, якщо починати з чистого хребта. Звучить добре для мене.

    β^розслаблено-пружна сітка=Хребет(Хiβ^i0).

Зараз я працюю з малим набору даних з і , де добре передбачається кілька провідних ПК . Я порівняю ефективність вищезазначених оцінювачів, використовуючи 100-кратну повторну 11-кратну перехресну перевірку. В якості показника продуктивності я використовую тестову помилку, нормовану для отримання чогось типу R-квадрата:На малюнку нижче пунктирні лінії відповідають оцінці ванільної пружної сіткинpн=44p=3000уХ

Rтест2=1-утест-β^0-Хтестβ^2утест-β^02.
β^ оцінці а три підпрограми відповідають трьом підходам до масштабування:

введіть тут опис зображення

Так, принаймні, за цими даними, усі три підходи перевершують оцінювач ванільної пружної сітки, і "розслаблена еластична сітка" працює найкраще.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.