Чому покарання за Лассо еквівалентно подвійній експоненції (Лапласу)?


27

Я читав у ряді посилань, що оцінка Лассо для вектора параметра регресії Б еквівалентна задньому режиму Б в якому попередній розподіл для кожного Бi є подвійним експоненціальним розподілом (також відомим як розподіл Лапласа).

Я намагався це довести, чи може хтось деталізувати деталі?


@ user777 Я сьогодні переглянув цю книгу. Не вдалося знайти щось відповідне.
Вінтермут

Відповіді:


30

Для простоти розглянемо лише одне спостереження змінної таке, що Y | μ , σ 2N ( μ , σ 2 ) ,Y

Y|мк,σ2N(мк,σ2),

і неправильне попереднє f ( σ ) 1 σ > 0 .μLaplace(λ)f(σ)1σ>0

Тоді щільність суглоба пропорційна f ( Y , μ , σ 2 | λ ) 1Y,мк,σ2

f(Y,мк,σ2|λ)1σдосвід(-(у-мк)2σ2)×2λе-λ|мк|.

Взяття журналу та відкидання термінів, що не включають , log f ( Y , μ , σ 2 ) = - 1мк

журналf(Y,мк,σ2)=-1σ2у-мк22-λ|мк|.(1)

Таким чином, максимум (1) буде оцінкою ПДЧ і справді є проблемою Лассо після того, як ми перепраметризуємо . λ~=λσ2

Розширення до регресії зрозуміло - замініть на X β за нормальної ймовірності, а попередній на β встановіть послідовністю незалежних розподілів лапласа ( λ ) .μXββ(λ)


25

Це очевидно, перевіривши кількість, яку оптимізує LASSO.

Візьміть за пріоритет незалежний Лаплас із середнім нулем та деякою шкалою τ .βiτ

Тож .p(β|τ)e12τi|βi|

Модель для даних є звичайним припущенням регресії .yiidN(Xβ,σ2)

f(y|X,β,σ2)(σ2)n/2exp(12σ2(yXβ)T(yXβ))

Тепер мінус удвічі більший за розміром журнал задньої частини

k(σ2,τ,n,p)+ 1σ2(yXβ)T(yXβ)+1τi|βi|

Let λ=σ2/τ and we get 2log-posterior of

k(σ2,λ,n,p)+ 1σ2[(yXβ)T(yXβ)+λi|βi|]

The MAP estimator for β minimizes the above, which minimizes

S=(yXβ)T(yXβ)+λi|βi|

So the MAP estimator for β is LASSO.

(Here I treated σ2 as effectively fixed but you can do other things with it and still get LASSO coming out.)

Edit: That's what I get for composing an answer off line; I didn't see a good answer was already posted by Andrew. Mine really doesn't do anything his doesn't do already. I'll leave mine for now because it gives a couple more details of the development in terms of β.


1
There seems to be a difference in your answer and Andrew's. Your answer has the correct form of the regularizer: λβ1, whereas Andrew has λ|μ|, where in linear regression, we get μ=Xβ.
Alex R.

2
@AlexR I think you're misinterpreting the μ in Andrew's answer. The μ there corresponds to a β0 in a regression with only an intercept, not to Xβ in a multiple regression; the same argument follows for the larger case (note the parallels with my answer) but it's easier to follow in the simple case. Andrew's answer is essentially right but doesn't connect all the dots to the original question, leaving a small amount for the reader to fill in. I think our answers are consistent (up to some minor differences relating to σ that can be accounted for) and that he fully deserved the tick
Glen_b -Reinstate Monica
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.