Норми хребта та LASSO


12

Цей пост слідує за цим: Чому оцінка хребта стає кращою за OLS, додаючи константу до діагоналі?

Ось моє запитання:

Наскільки мені відомо, регуляризація хребта використовує (евклідова відстань). Але чому ми використовуємо квадрат цієї норми? (пряме застосування призведе до квадратного кореня суми бета-квадрата).222

Для порівняння, ми не робимо цього для LASSO, який використовує для регуляризації. Але ось це "реальна" норма (просто сума квадрата бета-абсолютних значень, а не квадрат цієї суми).111

Може хтось допоможе мені уточнити?


2
Термін покарання при регресії хребта - це норма L2. Дивіться ці слайди, написані Tibshirani як приклад (слайд 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf Дивіться також тут en.wikipedia.org/wiki/Tikhonov_regularization
boscovich

Невелике уточнення, це слайди від Райана Тібшірані, а не Роб.
Елліс Валентинер

ок, спасибі велике за роз’яснення. Але я не розумію, чому квадрат для L2, а не для L1. Чи не маємо загальних формул для будь-якого виду регуляризації?
PLOTZ

@ user12202013: дякую, що вказали на це. Я цього не помічав.
boscovich

Відповіді:


9

Рідж та ласо - два способи регуляризації та регресії. Регресія Лассо накладає обмеження на суму абсолютних коефіцієнтів:

iβi2=||β||1

Регресія хребта накладає обмеження на суму різниць у квадраті:

iβi2=iβi22=||βi||22

Ви запропонували ввести ще одну норму, евклідова довжина коефіцієнтів:

iβi2=||βi||2

Різниця між регресією хребта і евклідовою довжиною - це квадратування. Це змінює інтерпретацію регуляризації. Хоча і хребет, і довжина евклідової регуляризуються до нуля, регресія хребта також відрізняється величиною регуляризації. Коефіцієнти, які знаходяться далі від нуля, тягнуться сильніше до нуля. Це робить його більш стійким навколо нуля, оскільки регуляризація поступово змінюється навколо нуля. Це не стосується евклідової довжини чи фактично регресії ласо.


7

Зараз існує безліч штрафних підходів, які мають всі види різних штрафних функцій (гребінь, ласо, MCP, SCAD). Питання, чому одна з конкретних форм, є в основному "які переваги / недоліки передбачає таке стягнення?".

Цікавими властивостями можуть бути:

1) майже неупереджених оцінювачів (зверніть увагу на те, що всі штрафні оцінки будуть упередженими)

2) Рідкість (відмітка регресії хребта не дає розріджених результатів, тобто не зменшує коефіцієнти до нуля)

3) Неперервність (щоб уникнути нестабільності в прогнозуванні моделі)

Це лише декілька властивостей, які можуть бути зацікавлені у функції штрафу.

Набагато простіше працювати із сумою у виведеннях і теоретичною роботою: наприклад, та. Уявіть, якби у нас було або . Прийняття похідних (що необхідно для демонстрації таких теоретичних результатів, як послідовність, асимптотична нормальність тощо) було б болем із таким покаранням.| | β | | 1 = | β i | ||β||22=|βi|2||β||1=|βi| (|βi|)2(|βi|2)(|βi|)2


добре, дякую. Але чому квадрат L2, а не квадрат L1? Чи не маємо загальних формул для будь-якого виду регуляризації? Це мене спантеличує ...
PLOTZ

@PLOTZ Я трохи доповнив свою відповідь.
bdeonovic

Велике спасибі Бенджаміну! Напевно, зараз зрозуміліше! Я не отримав цієї теоретичної мети до вашої відповіді. Велике спасибі за вашу відповідь.
PLOTZ

@ Бенджамін: у пункті №1 ви мали на увазі "( не всі штрафні оцінки будуть неупередженими)"? Регресія хребта - просто назвати одну - упереджена.
боскович

ой так, дякую за те, що це зробив! Я думаю, що насправді всі штрафні оцінки будуть упередженими.
bdeonovic

5

Насправді і квадрат і походять з одного класу регуляризації: коли .121βppp>0

Регресія хребта тоді використовує , а Lasso але можна використовувати інші значення .p=2p=1p

Наприклад, у вас є розріджене рішення для всіх значень , і менше значення більш рідкого рішення.p1p

Для значень ваша мета не є більш гладкою, тому оптимізація стає складніше; для ціль не випукла, тому оптимізація ще складніше ...p1p<1


2

Я вважаю, що тут є ще простіша відповідь, хоча на питання "чому" завжди важко відповісти, коли розробляється техніка. Квадратна -норма використовується так, що термін регуляризації легко диференціюється. Регресія хребта мінімізує:l2

yXβ22+λβ22

Що також можна записати:

yXβ22+λβTβ

Тепер це можна легко диференціювати wrt щоб отримати рішення закритої форми:β

β^ridge=(XTX+λI)1XTy

з якого можна отримати всі види висновків.


1

Розглянемо ще одну важливу різницю між використанням квадрата норми (тобто регресії хребта) та немодифікованої норми : похідна норми від , , при задається і тому не диференціюється при нульовому векторі. Тобто, хоча норма не здійснює індивідуального вибору змінної, як ласо, вона теоретично могла б отримати як рішення максимально пенімізованої ймовірності. Шляхом222x||x||2xx||x||22β=02 Норма штрафу, покарання типу гребеня є диференційованим скрізь і ніколи не може дати таке рішення.

Така поведінка є точно (наскільки я розумію), чому групове ласо (Юань та Лін) та розріджене групове ласо (Саймон та ін.) Тощо використовують норму (для заздалегідь визначених підмножин коефіцієнтів) замість квадрата з норми.22

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.