Чому регресія хребта не скоротить деякі коефіцієнти до нуля, як ласо?


16

При поясненні регресії LASSO часто використовується діаграма алмазу і кола. Кажуть, що оскільки форма обмеження в LASSO є алмазом, отримане рішення з найменшими квадратами може торкатися кута алмазу таким чином, що це призводить до усадки деякої змінної. Однак при регресії хребта, оскільки це коло, він часто не торкнеться осі. Я не міг зрозуміти, чому він не може торкнутися осі або, можливо, має меншу ймовірність, ніж LASSO, зменшити певні параметри. Крім того, чому LASSO та хребет мають меншу дисперсію, ніж звичайні найменші квадрати? Сказане вище - це моє розуміння хребта та LASSO, і я можу помилитися. Чи може хтось допомогти мені зрозуміти, чому ці два методи регресії мають меншу дисперсію?



1
Гаразд, дисперсійна частина жирним шрифтом не дублюється, принаймні з цього питання; тож, можливо, це питання можна було б відредагувати, щоб зосередитись саме на цьому.
Джухо Коккала

Це добре пояснено на рисунку 3.11 веб-сайту web.stanford.edu/~hastie/local.ftp/Springer/OLD/…

@fcop я читав книгу, але я не зовсім розумію математику
user10024395

Але для розуміння картини вам не потрібна математика?

Відповіді:


26

Це стосується дисперсії

OLS забезпечує те, що називається найкращим лінійним неупередженим оцінювачем (BLUE) . Це означає, що якщо ви берете будь-який інший неупереджений оцінювач, він повинен мати більш високу дисперсію, ніж рішення OLS. То чому б на землі слід розглянути щось інше, ніж це?

Тепер хитрість з регуляризацією, як-от ласо або гребінь, полягає в тому, щоб додати певну зміщення по черзі, щоб спробувати зменшити дисперсію. Тому що , коли ви оцінюєте свої помилки передбачення, це поєднання трьох речей :

E[(yf^(x))2]=Bias[f^(x))]2+Var[f^(x))]+σ2
Остання частина - це невиправна помилка, тому ми не маємо над цим контролю. За допомогою рішення OLS термін зміщення дорівнює нулю. Але може бути, що другий термін великий. Це може бути хорошою ідеєю ( якщо ми хочемо гарних прогнозів ), додати деякі упередження і, сподіваємось, зменшити дисперсію.

Так що ж це ? Це дисперсія, введена в оцінки для параметрів у вашій моделі. Лінійна модель має вигляд y = X β + ϵ ,Вар[f^(х))] Для отримання рішення OLS ми вирішуємо задачу мінімізації arg min β | | y - X β | | 2 Це забезпечує рішення & beta ; МНК = ( Х Т Х ) - 1 х Т у завдання мінімізації коника регресії аналогічно: Arg хв & beta ; | | y - X β | |

у=Хβ+ϵ,ϵN(0,σ2Я)
аргхвβ||у-Хβ||2
β^OLS=(ХТХ)-1ХТу
Тепер рішення стає β - Рідж = ( X T X + λ I ) - 1 X T у Таким чиномми додаємо цей Л I (званий гребінь) на діагоналі матриці, ми інвертувати. Ефект, який це має на матрицю X T X, полягає в тому, що вона "відтягує" визначник матриці від нуля. Таким чином, перетворюючи його, ви не отримуєте величезних власних значень. Але це призводить до ще одного цікавого факту, а саме: дисперсія оцінок параметрів стає меншою.
аргхвβ||у-Хβ||2+λ||β||2λ>0
β^Хребет=(ХТХ+λЯ)-1ХТу
λЯХТХ

Я не впевнений, чи можу я дати більш чітку відповідь, ніж це. На що все це зводиться - це матриця коваріації параметрів у моделі та величина значень цієї матриці коваріації.

Я взяв за приклад регресію хребта, тому що це набагато простіше лікувати. "Ласо" набагато важче, і досі триває активне дослідження на цю тему.

Ці слайди надають додаткову інформацію, і цей блог також містить деяку відповідну інформацію.

EDIT: Що я маю на увазі, що додавши хребет, визначник « відтягується » від нуля?

ХТХ

det(ХТХ-тЯ)=0
т
det(ХТХ+λЯ-тЯ)=0
det(ХТХ-(т-λ)Я)=0
(т-λ)тiтi+λλ

Ось декілька код R для ілюстрації цього:

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

Що дає результати:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

Таким чином, всі власні значення зміщуються на 3 рівно.

Це також можна довести загалом, використовуючи теорему кола Гершгоріна . Там центри кіл, що містять власні значення, є діагональними елементами. Ви завжди можете додати "достатньо" до діагонального елемента, щоб зробити всі кола в додатній реальній півплощині. Цей результат більш загальний і не потрібен для цього.


Чи можете ви пояснити, як вона «відтягує» визначник від нуля (математично)? Дякую
користувач10024395

@ user2675516 Я відредагував свою відповідь.
Гумео

"Це означає, що якщо ви берете будь-який інший неупереджений оцінювач, він повинен мати більш високу дисперсію, ніж рішення OLS". Ви маєте на увазі більшу упередженість, ніж OLS? Я думав, що OLS має найменший ухил, тому все, що інше, має більш високі упередження. Поясніть, будь ласка
GeorgeOfTheRF

@ML_Pro OLS має нульове зміщення, і з усіх неупереджених оцінювачів він має найменшу дисперсію. Це теорема . Тож якщо ви виберете будь-який інший, дисперсія збільшиться. Але якщо ви регулярізуєте, ви вводите упередження.
Гумео

Спасибі! Ваша відповідь викликала цікавість. Чи можете ви відповісти на це нове питання, яке я створив? stats.stackexchange.com/questions/294926/…
GeorgeOfTheRF

2

Регрес хребта

L2 = (y-xβ) ^ 2 + λ∑βi ^ 2

Вирішимо це рівняння лише для одного β зараз, і останнє ви можете узагальнити таким чином:

Отже, (y-xβ) ^ 2 + λβ ^ 2 це наше рівняння для одного β.

Наша мета - мінімізувати вищевказане рівняння, щоб мати змогу це зробити, прирівняти це до нуля і взяти похідні wrt β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- Використання (ab) ^ 2 розширення

Часткові похідні wrt

-2xy + 2x ^ 2β + 2βλ = 0

2β (x ^ 2 + λ) = 2xy

β = 2xy / 2 (x ^ 2 + λ)

Нарешті

β = xy / (x ^ 2 + λ)

Якщо ви спостерігаєте за знаменником, він ніколи не стане нулем, оскільки ми додаємо деяке значення λ (тобто гіперпараметр). І тому значення β буде максимально низьким, але не стане нульовим.

Регресія LASSO:

L1 = (y-xβ) ^ 2 + λ∑ | β |

Вирішимо це рівняння лише для одного β на даний момент, а останнє ви можете узагальнити до більш β:

Отже, (y-xβ) ^ 2 + λβ це наше рівняння для одного β, Тут я розглянув + ve значення β.

Наша мета - мінімізувати вищевказане рівняння, щоб мати змогу це зробити, прирівняти це до нуля і взяти похідні wrt β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- Використання (ab) ^ 2 розширення

Часткові похідні wrt

-2xy + 2x ^ 2β + λ = 0

2x ^ 2β + λ = 2xy

2х ^ 2β = 2xy-λ

Нарешті

β = (2xy-λ) / (2X ^ 2)

Якщо ви спостерігаєте чисельник, він стане нульовим, оскільки ми віднімаємо деяке значення λ (тобто гіперпараметр). І тому значення β буде встановлено як нульове.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.