На це можна напасти різними способами, включаючи досить економічні підходи через умови Каруша – Куна – Таккера .
Нижче - досить елементарний альтернативний аргумент.
Рішення з найменшими квадратами для ортогональної конструкції
Припустимо, складається з ортогональних стовпців. Тоді рішення з найменшими квадратами -
X
β^LS=(XTX)−1XTy=XTy.
Деякі еквівалентні проблеми
Через форму зрозуміти, що еквівалентною проблемою, що розглядається у питанні, є
minβ12∥y−Xβ∥22+γ∥β∥1.
Розгортаючи перший доданок, отримуємо і оскільки не містить жодного цікавих змінних, ми можемо відмовитись від неї та розглянути ще одну еквівалентну проблему
12yTy−yTXβ+12βTβyTy
minβ(−yTXβ+12∥β∥2)+γ∥β∥1.
Зауваживши, що , попередню проблему можна переписати як
β^LS=XTy
minβ∑i=1p−β^LSiβi+12β2i+γ|βi|.
Наша цільова функція - це сукупність цілей, кожна з яких відповідає окремій змінній , тому кожне може вирішуватися індивідуально.βi
Ціле дорівнює сумі його частин
Зафіксуйте певне . Тоді ми хочемо мінімізувати
i
Li=−β^LSiβi+12β2i+γ|βi|.
Якщо , тоді ми повинні мати оскільки в іншому випадку ми можемо перевернути його знак і отримати меншу величину для цільової функції. Так само, якщо , тоді ми повинні вибрати .β^LSi>0βi≥0β^LSi<0βi≤0
Випадок 1 : . Оскільки ,
та диференціюючи це відносно та встановивши рівне нулю , ми отримуємо і це можливо лише в тому випадку, якщо правий бік невід'ємний, тож у цьому випадку фактичне рішення -
β^LSi>0βi≥0
Li=−β^LSiβi+12β2i+γβi,
βiβi=β^LSi−γβ^lassoi=(β^LSi−γ)+=sgn(β^LSi)(|β^LSi|−γ)+.
Випадок 2 : . Це означає, що ми повинні мати і так
Диференціюючи відносно та встановивши рівне нулю, отримаємо . Але, знову ж таки, щоб переконатися, що це можливо, нам знадобиться , що досягається, приймаючи
β^LSi≤0βi≤0
Li=−β^LSiβi+12β2i−γβi.
βiβi=β^LSi+γ=sgn(β^LSi)(|β^LSi|−γ)βi≤0β^lassoi=sgn(β^LSi)(|β^LSi|−γ)+.
В обох випадках ми отримуємо бажану форму, і так ми закінчуємо.
Заключні зауваження
Зауважте, що як збільшується, то кожен зобов'язково зменшується, отже, і . Коли , ми відновимо рішення OLS, і для, отримуємо для всіх .γ|β^lassoi|∥β^lasso∥1γ=0γ>maxi|β^LSi|β^lassoi=0i