Норми хребта та LASSO

12

Цей пост слідує за цим: Чому оцінка хребта стає кращою за OLS, додаючи константу до діагоналі?

Ось моє запитання:

Наскільки мені відомо, регуляризація хребта використовує (евклідова відстань). Але чому ми використовуємо квадрат цієї норми? (пряме застосування призведе до квадратного кореня суми бета-квадрата). $\ell_2$ $\ell_2$

Для порівняння, ми не робимо цього для LASSO, який використовує для регуляризації. Але ось це "реальна" норма (просто сума квадрата бета-абсолютних значень, а не квадрат цієї суми). $\ell_1$ $\ell_1$

Може хтось допоможе мені уточнити?

lasso regularization ridge-regression

— ПЛОЦ
джерело

2

Термін покарання при регресії хребта - це норма L2. Дивіться ці слайди, написані Tibshirani як приклад (слайд 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf Дивіться також тут en.wikipedia.org/wiki/Tikhonov_regularization

— boscovich

Невелике уточнення, це слайди від Райана Тібшірані, а не Роб.

— Елліс Валентинер

ок, спасибі велике за роз’яснення. Але я не розумію, чому квадрат для L2, а не для L1. Чи не маємо загальних формул для будь-якого виду регуляризації?

— PLOTZ

@ user12202013: дякую, що вказали на це. Я цього не помічав.

— boscovich

9

Рідж та ласо - два способи регуляризації та регресії. Регресія Лассо накладає обмеження на суму абсолютних коефіцієнтів:

$\sum_i \sqrt{\beta_i^2} = ||\beta||_1$

Регресія хребта накладає обмеження на суму різниць у квадраті:

$\sum_i \beta_i^2 = \sqrt{\sum_i \beta_i^2}^2 = ||\beta_i||_2^2$

Ви запропонували ввести ще одну норму, евклідова довжина коефіцієнтів:

$\sqrt{\sum_i \beta_i^2} = ||\beta_i||_2$

Різниця між регресією хребта і евклідовою довжиною - це квадратування. Це змінює інтерпретацію регуляризації. Хоча і хребет, і довжина евклідової регуляризуються до нуля, регресія хребта також відрізняється величиною регуляризації. Коефіцієнти, які знаходяться далі від нуля, тягнуться сильніше до нуля. Це робить його більш стійким навколо нуля, оскільки регуляризація поступово змінюється навколо нуля. Це не стосується евклідової довжини чи фактично регресії ласо.

— Пітер
джерело

7

Зараз існує безліч штрафних підходів, які мають всі види різних штрафних функцій (гребінь, ласо, MCP, SCAD). Питання, чому одна з конкретних форм, є в основному "які переваги / недоліки передбачає таке стягнення?".

Цікавими властивостями можуть бути:

1) майже неупереджених оцінювачів (зверніть увагу на те, що всі штрафні оцінки будуть упередженими)

2) Рідкість (відмітка регресії хребта не дає розріджених результатів, тобто не зменшує коефіцієнти до нуля)

3) Неперервність (щоб уникнути нестабільності в прогнозуванні моделі)

Це лише декілька властивостей, які можуть бути зацікавлені у функції штрафу.

Набагато простіше працювати із сумою у виведеннях і теоретичною роботою: наприклад, та. Уявіть, якби у нас було або . Прийняття похідних (що необхідно для демонстрації таких теоретичних результатів, як послідовність, асимптотична нормальність тощо) було б болем із таким покаранням. $||\beta||_2^2=\sum |\beta_i|^2$ $||\beta||_1 = \sum |\beta_i|$ $\sqrt{\left(\sum |\beta_i|^2\right)}$ $\left( \sum |\beta_i|\right)^2$

— бдеонович
джерело

добре, дякую. Але чому квадрат L2, а не квадрат L1? Чи не маємо загальних формул для будь-якого виду регуляризації? Це мене спантеличує ...

— PLOTZ

@PLOTZ Я трохи доповнив свою відповідь.

— bdeonovic

Велике спасибі Бенджаміну! Напевно, зараз зрозуміліше! Я не отримав цієї теоретичної мети до вашої відповіді. Велике спасибі за вашу відповідь.

— PLOTZ

@ Бенджамін: у пункті №1 ви мали на увазі "( не всі штрафні оцінки будуть неупередженими)"? Регресія хребта - просто назвати одну - упереджена.

— боскович

ой так, дякую за те, що це зробив! Я думаю, що насправді всі штрафні оцінки будуть упередженими.

— bdeonovic

5

Насправді і квадрат і походять з одного класу регуляризації: коли . $\ell_2$ $\ell_1$ $\|\boldsymbol{\beta}\|_p^p$ $p > 0$

Регресія хребта тоді використовує , а Lasso але можна використовувати інші значення . $p=2$ $p=1$ $p$

Наприклад, у вас є розріджене рішення для всіх значень , і менше значення більш рідкого рішення. $p \leq 1$ $p$

Для значень ваша мета не є більш гладкою, тому оптимізація стає складніше; для ціль не випукла, тому оптимізація ще складніше ... $p \leq 1$ $p<1$

— Тоніо Боннеф
джерело

2

Я вважаю, що тут є ще простіша відповідь, хоча на питання "чому" завжди важко відповісти, коли розробляється техніка. Квадратна -норма використовується так, що термін регуляризації легко диференціюється. Регресія хребта мінімізує: $l_2$

‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{2}^{2}

$\|\mathbf{y - X\beta}\|^2_2+\lambda\|\beta\|_2^2$

Що також можна записати:

‖ y - X β ‖_{2}^{2} + λ β^{T} β

$\|\mathbf{y - X\beta}\|^2_2+\lambda\beta^T\beta$

Тепер це можна легко диференціювати wrt щоб отримати рішення закритої форми: $\beta$

{\hat{β}}^{ridge} = (X^{T} X + λ I)^{- 1} X^{T} y

$\hat\beta^{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda I)^{-1}\mathbf{X}^T\mathbf{y}$

з якого можна отримати всі види висновків.

— Тім Атрейдс
джерело

1

Розглянемо ще одну важливу різницю між використанням квадрата норми (тобто регресії хребта) та немодифікованої норми : похідна норми від , , при задається і тому не диференціюється при нульовому векторі. Тобто, хоча норма не здійснює індивідуального вибору змінної, як ласо, вона теоретично могла б отримати як рішення максимально пенімізованої ймовірності. Шляхом $\ell_2$ $\ell_2$ $\ell_2$ $x$ $||x||_2$ $x$ $\frac{x}{ ||x||_2}$ $\ell_2$ $\beta=0$ $\ell_2$ Норма штрафу, покарання типу гребеня є диференційованим скрізь і ніколи не може дати таке рішення.

Така поведінка є точно (наскільки я розумію), чому групове ласо (Юань та Лін) та розріджене групове ласо (Саймон та ін.) Тощо використовують норму (для заздалегідь визначених підмножин коефіцієнтів) замість квадрата з норми. $\ell_2$ $\ell_2$

— psboonstra
джерело