- Якщо то наш штрафний термін буде нескінченним для будь-якого окрім , тож це ми отримаємо. Немає іншого вектора, який би дав нам кінцеве значення цільової функції.λ→∞ββ=0
(Оновлення: див. Відповідь Glen_b. Це не правильна історична причина!)
- Це відбувається з рішення регресії хребта в матричній нотації. Рішення виявляється
Термін додає "хребет" до основної діагоналі та гарантує, що отримана матриця є незворотною. Це означає, що на відміну від OLS, ми завжди знайдемо рішення.
β^=(XTX+λI)−1XTY.
λI
Регресія хребта корисна, коли предиктори корелюють. У цьому випадку OLS може дати дикі результати з величезними коефіцієнтами, але якщо вони будуть накладені штрафи, ми можемо отримати набагато більш розумні результати. Загалом великою перевагою регресії хребта є те, що рішення завжди існує, як було сказано вище. Це стосується навіть випадку, коли , для якого OLS не може надати (унікального) рішення.n<p
Регресія хребта також є результатом, коли на вектор " введено нормальне значення .β
Ось байєсівська регресія хребта: припустимо, нашим попереднім для є . Тоді тому, що [за припущенням] маємо, що
ββ∼N(0,σ2λIp)(Y|X,β)∼N(Xβ,σ2In)
π(β|y)∝π(β)f(y|β)
∝1(σ2/λ)p/2exp(−λ2σ2βTβ)×1(σ2)n/2exp(−12σ2||y−Xβ||2)
∝exp(−λ2σ2βTβ−12σ2||y−Xβ||2).
Давайте знайдемо задній режим (ми також можемо поглянути на задню середню або інші речі, але для цього давайте розглянемо режим, тобто найбільш вірогідне значення). Це означає, що ми хочемо
що еквівалентно
maxβ∈Rp exp(−λ2σ2βTβ−12σ2||y−Xβ||2)
maxβ∈Rp −λ2σ2βTβ−12σ2||y−Xβ||2
оскільки суворо монотонний, і це в свою чергу еквівалентно
logminβ∈Rp||y−Xβ||2+λβTβ
який повинен виглядати досить знайомо.
Таким чином, ми бачимо, що якщо поставити нормальний пріоритет із середнім 0 та дисперсією на наш вектор, значення яке максимально збільшує заднє, є оцінкою хребта. Зауважте, що це трактує більше як парафіністський параметр, тому що в ньому немає попереднього, але він не відомий, тому це не повністю байєсівське.σ2λββσ2
Редагувати: ви запитували про випадок, коли . Ми знаємо, що гіперплощина в визначається точно пунктами. Якщо ми запускаємо лінійну регресію і то точно інтерполюємо наші дані і отримуємо . Це рішення, але воно жахливе: наша робота над майбутніми даних, швидше за все, буде безглуздою. Тепер припустимо, що : більше не існує унікальної гіперплани, визначеної цими точками. Ми можемо помістити безліч гіперпланів, кожен з яких має 0 залишкових сум квадратів.n<pRppn=p||y−Xβ^||2=0n<p
Дуже простий приклад: припустимо, . Тоді ми просто отримаємо лінію між цими двома точками. Тепер припустимо, що але . Зобразіть площину з цими двома точками. Ми можемо обертати цю площину, не змінюючи того факту, що ці дві точки знаходяться в ній, тому існує незліченно багато моделей, які мають ідеальне значення нашої цільової функції, тож навіть поза питанням оздоблення не зрозуміло, яку вибрати.n=p=2n=2p=3
Як остаточний коментар (за пропозицією @ gung), LASSO (за допомогою штрафу ) зазвичай використовується для проблем з високими розмірами, оскільки він автоматично здійснює вибір змінних (задає деякі ). Досить приємно, виявляється, що LASSO еквівалентний пошуку заднього режиму при використанні подвійного експоненціалу (він же Лаплас) до вектора . LASSO також має деякі обмеження, такі як насичення на провісниках та необов'язково обробляти групи корельованих предикторів ідеально, тому еластична сітка (опукла комбінація покарань та ) може бути принесена в дію.L1βj=0βnL1L2