Геометрична інтерпретація пенізованої лінійної регресії


26

Я знаю, що лінійну регресію можна розглядати як "лінію, вертикально найближчу до всіх точок" :

введіть тут опис зображення

Але є й інший спосіб побачити це, візуалізуючи простір стовпців, як "проекцію на простір, що охоплюється стовпцями коефіцієнта матриці" :

введіть тут опис зображення

Моє запитання: у цих двох інтерпретаціях, що відбувається, коли ми використовуємо пенізовану лінійну регресію, як регрес хребта та LASSO ? Що відбувається з рядком у першій інтерпретації? А що відбувається з проекцією у другій інтерпретації?

ОНОВЛЕННЯ: @JohnSmith в коментарях підніс той факт, що штраф відбувається в просторі коефіцієнтів. Чи є інтерпретація і в цьому просторі?


1
Я не впевнений, що таке тлумачення можна придумати. Просто тому, що ви надали - це зображення в оригінальному просторі функцій та відповідей. А пенізована регресія передбачає простір коефіцієнтів, який дуже відрізняється.
Дмитро Лаптєв

"лінія, вертикально найближча до всіх точок"? Зазвичай береться сума квадратів - дивіться приємну картинку у Вікіпедії Коефіцієнт_визначення . Сума вертикальних відстаней - це норма L1, яка менш чутлива до людей, що не мають статусу, але набагато рідша.
denis

Відповіді:


21

Вибачте за свої навички живопису, я спробую дати вам наступну інтуїцію.

Нехай є об'єктивною функцією (наприклад, MSE у разі регресії). Давайте уявимо контурний графік цієї функції червоним кольором (звичайно, ми малюємо її у просторі , тут для простоти та ).β β 1 β 2f(β)ββ1β2

Ця функція є мінімум посеред червоних кіл. І цей мінімум дає нам не санкціоноване рішення.

Тепер ми додаємо різні цілі контурний графік яких заданий синім кольором. Або регулятор LASSO, або регулятор регресії хребта. Для LASSO , для регресії хребта ( - це пеналізація параметр). Контурні графіки показують область, у якій функції мають фіксовані значення. Отже, чим більше - тим швидше зростання і тим більше "вузький" контурний графік.g ( β ) = λ ( | β 1 | + | β 2 | ) g ( β ) = λ ( β 2 1 + β 2 2 ) λ λ g ( x )g(β)g(β)=λ(|β1|+|β2|)g(β)=λ(β12+β22)λλg(x)

Тепер ми повинні знайти мінімум суми цих двох цілей: . І це досягається, коли два контурних ділянки зустрічаються один з одним.f(β)+g(β)

Регресія LASSO та хребта

Чим більший штраф, тим "більш вузькі" сині контури ми отримуємо, і тоді ділянки зустрічаються один з одним у точці, ближчій до нуля. І навпаки: чим менший розмір штрафу, тим контури розширюються, і перетин синіх та червоних ділянок наближається до центру червоного кола (не пеналізоване рішення).

А тепер слідує цікава річ, яка значно пояснює мені різницю між регресією хребта та LASSO: у випадку LASSO два контурні графіки, ймовірно, будуть зустрічатися там, де знаходиться кут ( або ). У разі регресу хребта, що майже ніколи не буває.β 2 = 0β1=0β2=0

Ось чому LASSO дає нам розріджене рішення, роблячи деякі параметри точно рівними .0

Сподіваємось, що це пояснить деяку інтуїцію щодо того, як працює пенізована регресія в просторі параметрів.


Я думаю, що починати з класичної картини, як ви це зробили, це вдалий початок. Щоб реально зрозуміти це, я думаю, було б корисно описати, як контури відносяться до проблеми. Зокрема, в обох випадках ми знаємо, що чим менший розмір нашого штрафу, тим ближче ми підійдемо до рішення OLS, і чим більшим він стане, тим ближче до чистої моделі перехоплення. Одне запитання - таке: як це проявляється у вашій фігурі?
кардинал

До речі, ваші навички малювання здаються просто чудовими.
кардинал

Дякуємо за Ваш коментар! Тут все інтуїтивно просто: чим більший штраф, тим «більш вузькі» сині контури, які ми отримуємо (і тоді точка двох ділянок зустрічається ближче до нуля). І навпаки: чим менший штраф: чим ближче до центру червоного кола ділянки будуть зустрічатися (OLS).
Дмитро Лаптєв

2
Я оновив відповідь, ввів більш точне позначення: для синіх ділянок, для параметра пенальті. Чи краще це пояснює ваше занепокоєння зараз? g(x)λ
Дмитро Лаптєв

1
Дякую за чітку ілюстрацію Я читав в інших місцях, що мінімальна сума цілей виникає там, де вони дотичні одна до одної. Я отримую це, якщо f (\ beta) '= -g (\ beta)', це означає, що похідна від суми дорівнює нулю, що є вимогою для екстремуму. Це те, що тут мається на увазі під «двома контурними ділянками між собою»?
odedbd

3

Інтуїція в мене така: У випадку з найменшими квадратами матриця капелюхів є ортогональною проекцією, таким чином, безсилою. У пеналізованому випадку матриця капелюхів більше не є ідентичною. Власне, застосовуючи його нескінченно багато разів, це зменшить коефіцієнти до початку. З іншого боку, коефіцієнти все ще повинні лежати в діапазоні прогнозів, тому це все ще є проекцією, хоч і не ортогональною. Величина покараючого коефіцієнта та тип норми контролюють відстань та напрямок усадки до початку.


1
Я не можу зрозуміти, чому це не ідентично: якщо я проектую вектор у простір (навіть якщо це не ортогональна проекція), і я вкладаю обмеження в коефіцієнти, чому нова проекція цього прогнозованого вектора відрізнятиметься від попередньої один?
Лукас Рейс

1
Інтуїтивно: Скажіть, ви мінімізуєте штрафну суму квадратів удруге. Сума квадратів при другій мінімізації менша, ніж сума квадратів першого мінімізації. Відносна важливість норми штрафних коефіцієнтів збільшиться, тобто більше можна отримати, зменшивши коефіцієнти ще більше. Регресія хребта - хороший приклад, коли у вас є приємна закрита форма для матриці капелюхів, і ви можете безпосередньо перевірити, чи вона ідентична.
ДжонРос
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.