Мостовий штраф проти регуляризації еластичної мережі


22

Деякі штрафні функції та наближення добре вивчені, такі як LASSO ( L1 ) та Хребет ( L2 ), і як вони порівнюються в регресії.

βjγγ=1γ=2

Веньцзян [ 1 ] порівнював Бридж-штраф, коли з LASSO, але я не зміг знайти порівняння з регуляризацією Еластичної мережі, комбінацією штрафних санкцій LASSO та Рідж, заданих якγ1λ2β2+λ1β1 .

Це цікаве питання, оскільки Еластична мережа та цей конкретний міст мають подібні форми обмеження. Порівняйте ці одиничні кола, використовуючи різні показники ( p - сила відстані Міньковського ):

Об'єднайте кола для різних потужностей відстані Міньковського

p=1 відповідає LASSO,p=2 хребту, аp=1.4 одному можливому мосту. Еластична сітка була створена з однаковою вагою дляштрафних санкційL1 таL2 . Ці цифри корисні, наприклад, для виявлення розрідженості (якої Бріст явно не вистачає, тоді як Еластична мережа зберігає її від LASSO).

Отже, як Міст з 1<γ<2 порівнюється з Еластичною мережею щодо регуляризації (крім розрідженості)? Я маю особливий інтерес до контрольованого навчання, тому, можливо, дискусія щодо підбору / зважування особливостей є актуальною. Геометрична аргументація також вітається.

Мабуть, важливіше, чи завжди в цій справі еластична мережа завжди більш бажана?


[1] Фу, штат Вірджинія (1998). Штрафні регресії: міст проти ласо. Журнал обчислювальної та графічної статистики, 7 (3), 397-416.


EDIT: Існує це питання Як вирішити, який штрафний захід застосувати? будь-які загальні вказівки чи основні правила виключають із підручника, де поверхнево згадуються LASSO, Ridge, Bridge та Elastic Net, але спроб їх порівняння немає.


4
Тільки тангенціально пов'язані, але якщо покарання норми є оцінкою MAP байесівської регресії з незалежними пріорами Лапласа за коефіцієнтами, а L 2 є однаковою для гауссових пріорів, мені цікаво, чи Бридж-штраф прирівнюється до попереднього субботіна. .. stats.stackexchange.com/questions/201038/…L1L2
Sycorax

@RichardHardy Немає необхідності писати ласо у всіх столицях, дивіться тут мій коментар .
амеба каже, що повернеться до Моніки

2
Майте на увазі, що мост регресії допускає що дає невипуклу регресію. Це особливо добре, коли намагаються вибрати групи коваріатів, особливо з розріджених даних. Або взагалі ви могли б мати заздалегідь визначені групи коваріатів, які ви б регулювали L 2 так, щоб жодна конкретна група не була великою, а потім L 1 регулювала коефіцієнти одногрупи для досягнення розрізненості. Тобто, якщо ви пишете β = ( a 1 , , a k ) , де a i = ( β i 1 , βγ<1L2L1β=(a1,,ak)то ви можете зробитиλ1| |β| | γ я +λ2Σяя ν я . ai=(βi1,βi2,,,βir)λ1βγi+λ2iaiνi
Алекс Р.

@AlexR. Я повинен насправді дати зрозуміти, що я маю на увазі . Я не знав, що γ < 1 також називали Міст. γ1γ<1
Firebug

1
@amoeba, добре, добре. Я зазвичай не редагую, якщо використання великих літер є послідовним у всьому дописі, але цього разу були і "LASSO", і "lasso", тому я просто перейшов на "LASSO", який був першою формою в публікації. Я завжди думаю про абревіатуру, тому я використовував усі столиці; але, як ви кажете, просте "ласо" може бути і краще.
Річард Харді

Відповіді:


20

Як регресія мосту та еластична сітка відрізняються - захоплююче питання, враховуючи схожі на них покарання. Ось один можливий підхід. Припустимо, ми вирішили проблему мостової регресії. Тоді ми можемо запитати, як би відрізнявся еластичний сітчастий розчин. Дивлячись на градієнти двох функцій втрат, можна сказати нам щось про це.

Мост регресії

Скажімо, - матриця, що містить значення незалежної змінної ( n точок x d розмірів), y - вектор, що містить значення залежної змінної, а w - ваговий вектор.Xndyw

Функція втрат карає норму ваг з величиною λ b :qλb

Lb(w)=yXw22+λbwqq

Градієнт функції втрат:

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)

позначає Адамара (тобто поелементно) потужності, що дає вектор, я й елемент V з I . sgn ( w ) - функція знаку (застосовується до кожного елемента w ). Для деяких значень q градієнт може бути невизначений при нулі.vcivicsgn(w)wq

Еластична сітка

Функція втрат:

Le(w)=yXw22+λ1w1+λ2w22

Це карає норму ваг величиною λ 1 та норму 2 величиною λ 2 . Папір з еластичної сітки називає мінімізацію цієї функції втрат «наївною еластичною сіткою», оскільки вона вдвічі скорочує ваги. Вони описують вдосконалену процедуру, коли ваги згодом змінюються, щоб компенсувати подвійне усадку, але я просто збираюся проаналізувати наївну версію. Це застереження, про яке слід пам’ятати.1λ12λ2

Градієнт функції втрат:

wLe(w)=2XT(yXw)+λ1sgn(w)+2λ2w

Градієнт не визначений при нулі, коли оскільки абсолютне значення в шкалі ℓ 1 там не диференційоване.λ1>01

Підхід

Скажімо, ми вибираємо ваги які вирішують задачу регресії моста. Це означає, що градієнт мосту регресії в цій точці дорівнює нулю:w

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)=0

Тому:

2XT(yXw)=λbq|w|(q1)sgn(w)

We can substitute this into the elastic net gradient, to get an expression for the elastic net gradient at w. Fortunately, it no longer depends directly on the data:

wLe(w)=λ1sgn(w)+2λ2wλbq|w|(q1)sgn(w)

Дивлячись на градієнт пружної сітки в нам кажуть: З огляду на те, що регресія моста сходилася до ваг w , як би еластична сітка хотіла змінити ці ваги?ww

Це дає нам локальний напрямок та величину бажаної зміни, оскільки точки градієнта у напрямку найкрутішого підйому та функції втрати зменшуватимуться, коли ми рухатимемось у напрямку, протилежному градієнту. Градієнт може не вказувати безпосередньо на розчин еластичної сітки. Але, оскільки функція втрати пружної сітки є опуклою, локальний напрямок / величина дає деяку інформацію про те, як рішення еластичної сітки буде відрізнятися від мостового регресійного рішення.

Випадок 1: Перевірка обгрунтованості

λb=0,λ1=0,λ2=12

enter image description here

Лівий графік: Еластичний градієнт сітки та вага регресії мосту вздовж кожного виміру

ww

Правильний сюжет: Еластичні зміни сітки до мостових регресійних ваг (2d)

ww, a vector is plotted pointing in the direction opposite the elastic net gradient, with magnitude proportional to that of the gradient. That is, the plotted vectors show how the elastic net wants to change the bridge regression solution.

These plots show that, compared to bridge regression (OLS in this case), elastic net (ridge regression in this case) wants to shrink weights toward zero. The desired amount of shrinkage increases with the magnitude of the weights. If the weights are zero, the solutions are the same. The interpretation is that we want to move in the direction opposite to the gradient to reduce the loss function. For example, say bridge regression converged to a positive value for one of the weights. The elastic net gradient is positive at this point, so elastic net wants to decrease this weight. If using gradient descent, we'd take steps proportional in size to the gradient (of course, we can't technically use gradient descent to solve the elastic net because of the non-differentiability at zero, but subgradient descent would give numerically similar results).

Case 2: Matching bridge & elastic net

(q=1.4,λb=1,λ1=0.629,λ2=0.355). I chose the bridge penalty parameters to match the example from the question. I chose the elastic net parameters to give the best matching elastic net penalty. Here, best-matching means, given a particular distribution of weights, we find the elastic net penalty parameters that minimize the expected squared difference between the bridge and elastic net penalties:

minλ1,λ2E[(λ1w1+λ2w22λbwqq)2]

Here, I considered weights with all entries drawn i.i.d. from the uniform distribution on [2,2] (i.e. within a hypercube centered at the origin). The best-matching elastic net parameters were similar for 2 to 1000 dimensions. Although they don't appear to be sensitive to the dimensionality, the best-matching parameters do depend on the scale of the distribution.

Penalty surface

Here's a contour plot of the total penalty imposed by bridge regression (q=1.4,λb=100) and best-matching elastic net (λ1=0.629,λ2=0.355) as a function of the weights (for the 2d case):

введіть тут опис зображення

Gradient behavior

введіть тут опис зображення

We can see the following:

  • Let wj be the chosen bridge regression weight along dimension j.
  • If |шj|<0,25, еластична сітка хоче зменшити вагу до нуля.
  • Якщо |шj|0,25, регресія моста та еластичні сітчасті рішення однакові. Але еластична сітка хоче відсунутися, якщо вага відрізняється навіть незначно.
  • Якщо 0,25<|шj|<1,31, еластична сітка хоче збільшити вагу.
  • Якщо |шj|1,31, регресія моста та еластичні сітчасті рішення однакові. Еластична сітка хоче рухатися до цієї точки з сусідніх ваг.
  • Якщо |шj|>1,31, еластична сітка хоче зменшити вагу.

Результати якісно схожі, якщо ми змінимо значення q та / або λб і знайти відповідне найкраще λ1,λ2. Точки, де збігаються мостові та еластичні сітчасті рішення, незначно змінюються, але поведінка градієнтів інакше схожа.

Випадок 3: Збірна містка та еластична сітка

(q=1.8,λб=1,λ1=0,765,λ2=0,225). У цьому режимі мостова регресія поводиться аналогічно регресії хребта. Я знайшов найкращу відповідністьλ1,λ2, але потім поміняв їх так, що еластична сітка поводиться більше як ласо (1 штраф, більший за 2 штраф).

введіть тут опис зображення

Відносно мостової регресії, еластична сітка хоче зменшити невеликі ваги до нуля і збільшити більшу вагу. У кожному квадранті є один набір ваг, де регресія мосту та рішення еластичної сітки збігаються, але еластична сітка хоче відійти від цієї точки, якщо ваги навіть незначно відрізняються.

(q=1.2,λб=1,λ1=173,λ2=0,816). У цьому режимі мостове покарання більше схоже на аналогічне1 штраф (хоча моста регресія може не виробляти рідкісні рішення з q>1, як згадується в еластичній чистій папері). Я знайшов найкращу відповідністьλ1,λ2, але потім поміняв їх так, що еластична сітка поводиться більше як регресія хребта (2 штраф, більший за 1 штраф).

введіть тут опис зображення

Відносно мостової регресії, еластична сітка хоче вирощувати невеликі ваги та зменшувати великі ваги. У кожному квадранті є точка, де регресія мосту та еластичні сітчасті рішення співпадають, а еластична сітка хоче рухатися до цих ваг із сусідніх точок.


3
(+1) Чудова відповідь, дякую за старання! Не могли б ви сказати ще одне останнє: "Чи завжди еластична мережа є більш бажаною?". Не потрібно бути тривалим;
Firebug

6
Регресія мосту та еластична сітка еквівалентні оцінці MAP з різними видами пріорів на вагах. З цієї точки зору, здається, що кращим вибором буде той, який краще відповідає процесу генерації даних, і що жоден метод не може бути кращим у всіх випадках.
користувач20160

2
+6, дуже приємна відповідь. Що стосується Вашого вище коментаря: який попередній показник дає регрес мосту? Я знаю, що Гауссовий пріоритет відповідає хребту та Лапласу до ласо. Чи можна якось комбінувати ці пріори, щоб отримати щось, що відповідає еластичній сітці?
амеба каже, що повернеться до Моніки

2
@amoeba Я не знаю, що це питання спрямоване на мене, але, як сказав GeneralAbrial у запитанні, місток, ймовірно, відповідає пріоритету Subbotin. Еластична сітка, як і очікувалося, знаходиться між Гауссовим та Лаплакійським пріорами. Див. Li, Q., & Lin, N. (2010). Еластична сітка Байєса Байєсівський аналіз, 5 (1), 151-170. та Zou, H., & Hastie, T. (2005). Регулялізація та змінний вибір через еластичну сітку. Журнал Королівського статистичного товариства: Серія B (Статистична методологія), 67 (2), 301-320. для короткого порівняння еластичної сітки та мостової регресії.
Firebug

2
@amoeba дякує за щедроту та привертає увагу до цього допису, як і для іншої публікації про PCA проти нелінійного зменшення розмірності. Приємно, що ви використовуєте свою представницю для просування інших питань / відповідей, і це мене радіє, якщо ця публікація є хоч якоюсь малою цінністю для людей. Інші, також дякую за добрі слова.
користувач20160
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.