Це стосується дисперсії
OLS забезпечує те, що називається найкращим лінійним неупередженим оцінювачем (BLUE) . Це означає, що якщо ви берете будь-який інший неупереджений оцінювач, він повинен мати більш високу дисперсію, ніж рішення OLS. То чому б на землі слід розглянути щось інше, ніж це?
Тепер хитрість з регуляризацією, як-от ласо або гребінь, полягає в тому, щоб додати певну зміщення по черзі, щоб спробувати зменшити дисперсію. Тому що , коли ви оцінюєте свої помилки передбачення, це поєднання трьох речей :
E[(y−f^(x))2]=Bias[f^(x))]2+Var[f^(x))]+σ2
Остання частина - це невиправна помилка, тому ми не маємо над цим контролю. За допомогою рішення OLS термін зміщення дорівнює нулю. Але може бути, що другий термін великий. Це може бути хорошою ідеєю (
якщо ми хочемо гарних прогнозів ), додати деякі упередження і, сподіваємось, зменшити дисперсію.
Так що ж це ? Це дисперсія, введена в оцінки для параметрів у вашій моделі. Лінійна модель має вигляд
y = X β + ϵ ,Вар [ ф^( х ) ) ]
Для отримання рішення OLS ми вирішуємо задачу мінімізації
arg min β | | y - X β | | 2
Це забезпечує рішення
& beta ; МНК = ( Х Т Х ) - 1 х Т у
завдання мінімізації коника регресії аналогічно:
Arg хв & beta ; | | y - X β | |
y = X β+ ϵ ,ϵ ∼ N( 0 , σ2Я)
аргхвβ| | y - X β| |2
β^OLS= ( XТX )- 1ХТу
Тепер рішення стає
β - Рідж = ( X T X + λ I ) - 1 X T у
Таким чиномми додаємо цей
Л I (званий гребінь) на діагоналі матриці, ми інвертувати. Ефект, який це має на матрицю
X T X, полягає в тому, що вона "
відтягує" визначник матриці від нуля. Таким чином, перетворюючи його, ви не отримуєте величезних власних значень. Але це призводить до ще одного цікавого факту, а саме: дисперсія оцінок параметрів стає меншою.
аргхвβ| | y - X β| |2+ λ | | β| |2λ > 0
β^Хребет= ( XТX +λI)- 1ХТу
λ IХТХ
Я не впевнений, чи можу я дати більш чітку відповідь, ніж це. На що все це зводиться - це матриця коваріації параметрів у моделі та величина значень цієї матриці коваріації.
Я взяв за приклад регресію хребта, тому що це набагато простіше лікувати. "Ласо" набагато важче, і досі триває активне дослідження на цю тему.
Ці слайди надають додаткову інформацію, і цей блог також містить деяку відповідну інформацію.
EDIT: Що я маю на увазі, що додавши хребет, визначник « відтягується » від нуля?
ХТХ
det ( XТХ -тя) = 0
тdet ( XТX +λI- т я) = 0
det ( XТX -(t-λ)I) = 0
( t - λ )тiтi+ λλ
Ось декілька код R для ілюстрації цього:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
Що дає результати:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
Таким чином, всі власні значення зміщуються на 3 рівно.
Це також можна довести загалом, використовуючи теорему кола Гершгоріна . Там центри кіл, що містять власні значення, є діагональними елементами. Ви завжди можете додати "достатньо" до діагонального елемента, щоб зробити всі кола в додатній реальній півплощині. Цей результат більш загальний і не потрібен для цього.