Чому Lasso забезпечує змінний вибір?


76

Я читав Елементи статистичного навчання , і хотів би знати, чому Лассо забезпечує змінний вибір, а регрес хребта не робить.

Обидва способи мінімізують залишкову суму квадратів і обмежують можливі значення параметрів . Для Лассо обмеження є , тоді як для хребта це , для деякого .β||β||1t||β||2tt

Я бачив у книзі картину діаманта проти еліпса, і я маю певну інтуїцію, чому Лассо може вдарити по кутах обмеженої області, що означає, що один із коефіцієнтів встановлений на нуль. Однак моя інтуїція досить слабка, і я не переконаний. Це легко зрозуміти, але я не знаю, чому це правда.

Тому я думаю, що я шукаю математичне обґрунтування чи інтуїтивне пояснення того, чому контури залишкової суми квадратів, ймовірно, потраплять у кути обмеженої області (тоді як ця ситуація малоймовірна, якщо обмеження - ).||β||1||β||2


Усі відповіді нижче - це хороші пояснення. Але я виклав статтю з візуальним поданням. Далі йде посилання medium.com/@vamsi149/…
solver149

Відповіді:


70

Розглянемо дуже просту модель: , з покаранням L1 на та функцією втрати найменших квадратів на . Ми можемо розширити вираз до мінімізації як:y=βx+eβ^e^

minyTy2yTxβ^+β^xTxβ^+2λ|β^|

Припустимо, що рішення з найменшими квадратами є деяким , що еквівалентно припущенню, що , і подивимося, що станеться, коли ми додамо штраф L1. З , , тому термін штрафу дорівнює . Похідна цільової функції wrt :β^>0yTx>0β^>0|β^|=β^2λββ^

2yTx+2xTxβ^+2λ

який, очевидно, має рішення . β^=(yTxλ)/(xTx)

Очевидно, збільшуючи ми можемо загнати до нуля (при ). Однак, як тільки , збільшення не призведе до цього негативного, тому що, пишучи вільно, мить стає негативною, похідна цільової функції змінюється на:λβ^λ=yTxβ^=0λβ^

2yTx+2xTxβ^2λ

де переворот у знаку обумовлений абсолютним значенням строку покарання; коли стає негативним, штрафний термін стає рівним , а прийняття похідної wrt призводить до . Це призводить до рішення , яке, очевидно, не відповідає (враховуючи, що рішення з найменшими квадратами , що означає , іλβ2λββ2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0). Збільшення штрафу L1 І збільшення терміну помилки у квадраті (оскільки ми рухаємось далі від рішення з найменшими квадратами) при переміщенні від до , тому ми цього не робимо, ми просто дотримуйтесь на .β^0<0β^=0

Інтуїтивно зрозуміло, що та ж логіка застосовується з відповідними змінами знаків і для рішення мінімум квадратів з . β^<0

Однак з покаранням найменших квадратів , однак похідна стає:λβ^2

2yTx+2xTxβ^+2λβ^

який, очевидно, має рішення . Очевидно, що жодне збільшення призведе до нуля. Таким чином, покарання L2 не може діяти як інструмент вибору змінних без м'яких рекламних випробувань, таких як "встановити оцінку параметра рівній нулю, якщо вона менше ". β^=yTx/(xTx+λ)λϵ

Очевидно, що все може змінитися, коли ви переходите до багатоваріантних моделей, наприклад, переміщення однієї оцінки параметрів навколо може призвести до зміни іншого знака, але загальний принцип той же: функція штрафу L2 не може отримати вас до нуля, тому що, пишучи дуже евристично, це фактично додає «знаменнику» виразу для , але функція штрафу L1 може, тому що фактично додає до «чисельника». β^


Чи Лассо також забезпечує вибір функцій у випадку нелінійних моделей, наприклад, NN?
Ілля

Невелике подальше запитання: Як може бути якщо - вектор, а - скаляр, який ми можемо змінювати, щоб знайти відповідний? λ=yTxyTxλ
Єкатерина Кокатюха

Я використовував універсальний приклад, тому - скаляр. Якщо ви вирішуєте багатоваріантну задачу, то множиться на вектор одиниць з довжиною = розмір або матриці ідентичності відповідного розміру, залежно від того, яка проблема вирішується. Ви можете це вирішити, помітивши, наприклад, що L2-норма = , і зробивши підстановки у вищезазначених формулах. yTxλβzzTIz
jbowman

Чи вдалося б показати (математично?), Як знак лямбда перевертається через абсолютний характер функції штрафних санкцій, оскільки я не в змозі дотримуватися цього фрагмента логіки.
користувач1420372

@ user1420372 - зробили; дайте мені знати, що ви думаєте.
jbowman

9

Припустимо, у нас є набір даних з y = 1 і x = [1/10 1/10] (одна точка даних, дві функції). Одне рішення - вибрати одну з особливостей, інша - зважити обидві функції. Тобто ми можемо вибрати або w = [5 5], або w = [10 0].

Зауважте, що для норми L1 обидва мають однаковий розмір штрафу, але чим більше розкинута вага має менший показник для норми L2.


8

Я думаю, що вже є чудові підказки, але просто для додання інтуїції щодо геометричної інтерпретації:

"Ласо виконує усадку , так що в обмеженні є" кути ", які в двох вимірах відповідають алмазу. Якщо сума квадратів" влучить "в один з цих кутів, то коефіцієнт, що відповідає осі, скорочується до нуля.L1

Зі збільшенням багатовимірний алмаз має зростаючу кількість кутів, і тому велика ймовірність, що деякі коефіцієнти будуть встановлені рівними нулю. Отже, ласо здійснює вибір усадки та (ефективно) підмножини.p

На відміну від вибору підмножини, хребет виконує м'яке порогове значення: коли параметр згладжування змінюється, вибірковий шлях оцінок постійно переміщується до нуля ".

Джерело: https://onlinecourses.science.psu.edu/stat857/book/export/html/137

Ефект можна добре візуалізувати там, де кольоровими лініями є шляхи коефіцієнтів регресії, що скорочуються до нуля.

введіть тут опис зображення

"Регресія хребта зменшує всі коефіцієнти регресії до нуля; ласо має тенденцію давати набір нульових коефіцієнтів регресії і призводить до розрідженого рішення."

введіть тут опис зображення

Джерело: https://onlinecourses.science.psu.edu/stat857/node/158

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.