Як отримати рішення про регресію хребта?


40

У мене виникають деякі проблеми з виведенням рішення для регресії хребта.

Я знаю рішення регресії без терміну регуляризації:

β=(XTX)1XTy.

Але після додавання терміна L2 до функції витрат, яким чином стає рішеннямλβ22

β=(XTX+λI)1XTy.

Відповіді:


23

Досить змінити функцію втрат, додавши штраф. У матричному відношенні початковою квадратичною втратою стає

(YXβ)T(YXβ)+λβTβ.
Виведення відносно β призводить до нормального рівняння
XTY=(XTX+λI)β
що веде до оцінювача Ріджа.

1
Чому похідна від λβTβ дорівнює λIβ
user34790

4
@ user34790 Це не так. Це дорівнює 2λβ . Але 2 скасовують аналогічні 2 на інших умовах. Звичайно, коефіцієнт I схожий на коефіцієнт 1 у "звичайній" алгебрі, ви можете помножити його де завгодно, не змінюючи нічого.
Білл

4
@bill: тут вам знадобиться щоб отримати матрицю правильного розміру, тому додавання працює з : - просто скалярIXTXλ
Генрі

47

Давайте побудуємо на тому, що ми знаємо, а саме: щоразу, коли матриця моделі дорівнює , відповідь -вектор - , а параметр -vector - , цільова функціяn×pXnypβ

f(β)=(yXβ)(yXβ)

(що є сумою квадратів залишків) зводиться до мінімуму, коли розв'язує нормальні рівнянняβ

(XX)β=Xy.

Регресія хребта додає ще один термін до цільової функції (зазвичай після стандартизації всіх змінних для того, щоб поставити їх на загальну основу), вимагаючи мінімізувати

(yXβ)(yXβ)+λββ

для деякої негативної константи . Це сума квадратів залишків плюс кратна сумі квадратів самих коефіцієнтів (очевидно, що він має глобальний мінімум). Оскільки , він має позитивний квадратний корінь .λλ0ν2=λ

Розглянемо матрицю доповненої з рядами , відповідні раз в одиничну матрицю :Xνp×pI

X=(XνI)

Коли вектор аналогічно розширений з нулями в кінці до , матричний добуток в цільовій функції додає додаткові умови форми до початкової мети. Томуypyp(0νβi)2=λβi2

(yXβ)(yXβ)=(yXβ)(yXβ)+λββ.

З форми виразу лівої руки випливає, що нормальні рівняння є

(XX)β=Xy.

Оскільки ми примикали нулі до кінця , права рука є такою ж, як . На лівій стороні додається до вихідного . Тому нові нормальні рівняння спрощуються доyXyν2I=λIXX

(XX+λI)β=Xy.

Крім концептуально економічного - для отримання цього результату не потрібні нові маніпуляції - це також обчислювально економічно: ваше програмне забезпечення для виконання звичайних найменших квадратів також буде робити регресію хребта без будь-яких змін. (Тим не менш, може бути корисним у великих проблемах використання програмного забезпечення, розробленого для цієї мети, оскільки воно буде використовувати спеціальну структуру для ефективного отримання результатів для щільно розташованого інтервалу , що дозволяє вивчити, як змінюються відповіді з .)Xλλ

Ще одна краса такого способу погляду на речі полягає в тому, як це може допомогти нам зрозуміти регресію хребта. Коли ми хочемо реально зрозуміти регресію, це майже завжди допомагає думати про це геометрично: стовпці складають вектори в реальному векторному просторі розмірності . Приєднуючи до , тим самим продовжуючи їх від векторів до векторів, ми вбудовуємо у більший простір , включаючи "уявні", взаємно ортогональні напрямки. Перший стовпчикXpnνIXnn+pRnRn+ppXнадається невеликий уявний компонент розміру , тим самим подовжуючи його та переміщуючи його з простору, створеного вихідними стовпцями. Другий, третій, ..., стовпці аналогічно подовжуються та переміщуються з вихідного простору на однакову кількість - але все в різних нових напрямках. Отже, будь-яка колінеарність, присутня в початкових колонках, буде негайно вирішена. Більше того, чим більше стає, тим більше ці нові вектори наближаються до окремихνppthννpуявні напрямки: вони стають все більш ортонормальними. Отже, рішення нормальних рівнянь негайно стане можливим і воно швидко стане чисельно стабільним, оскільки зростає з .ν0

Цей опис процесу наводить певний роман та творчий підхід до вирішення проблем, з якими Ridge Regression був розроблений для вирішення. Наприклад, використовуючи будь-які засоби (такі як дисперсійне розкладання, описані Belsley, Kuh і Welsch у своїй книзі 1980 р. Про регресійну діагностику , глава 3), ви можете виявити підгрупи майже колінеарних стовпців , де кожна підгрупа є майже ортогональним для будь-якого іншого. Вам потрібно приєднати стільки рядків до (і нулів до ), скільки елементів у найбільшій групі, присвячуючи один новий "уявний" вимір для переміщення кожного елемента групи від його побратимів: вам не потрібно уявного розміри для цього.XXyp


2
Останній автор книги - валлійський, а не валлійський.
Марк Л. Стоун

1
О, це просто підірвало мені розум. Чи є дискусія щодо того, що відбувається, коли це узагальнено за межами лінійних моделей, тобто з glm? Штраф не повинен бути таким же, як регресія хребта ... але це тлумачення означає, що це все-таки потенційний корисний оцінювач!
Кліф АВ

2
@Cliff Це дуже цікава пропозиція. Оскільки, однак, оцінки GLM значно складніше залежать від і їх оцінювачі зазвичай не можуть бути враховані у формі як вони є для OLS (де і ), це може бути важко встановити корисну зв'язок між накладення штрафу функції і зміни стовпців . Зокрема, незрозуміло, як потрібно було б збільшити значення , щоб зробити цю роботу. X
β^=g(X)h(y)
g(X)=(XX)1Xh(y)=yXy
whuber

1
Так, потрібно було б подумати, щоб спробувати встановити, що таке покарання, але мене це не так хвилює. Ідея того, що використовувати, зазвичай не є простою ... за винятком, можливо, у випадку логістичної регресії, де ми могли б додати два ; один із 0 і один із 1. Тоді це збільшення буде більш загальною версією "+2 біноміального оцінювача" (є більш правильна назва цього оцінника, на який я переглядаю, що в основному, коли ви оцінюєте з біноміального розподілу, використовуючи заднє середнє значення як оцінка з рівномірним попереднім на ). y ypp
Кліф АВ

@Mark Дякую за виправлення. Ви можете сказати, що я йшов із пам’яті ... :-).
whuber

20

Виведення включає в себе матричне обчислення, яке може бути досить стомлюючим. Ми хотіли б вирішити таку проблему:

minβ(YβTX)T(YβTX)+λβTβ

Тепер зауважимо, що і Разом переходимо до умови першого порядку Виділення дає рішення:

(YβTX)T(YβTX)β=2XT(YβTX)
λβTββ=2λβ.
XTY=XTXβ+λβ.
β
β=(XTX+λI)1XTY.

9

Нещодавно я натрапив на те саме питання в контексті P-Splines, і оскільки концепція однакова, я хочу дати більш детальну відповідь щодо виведення оцінювача гребеня.

Почнемо з пеналізованої критеріальної функції, яка відрізняється від класичної функції критерію OLS своїм терміном пеналізації в останньому підсумку:

CriterionRidge=i=1n(yixiTβ)2+λj=1pβj2

де

  • p= кількість коефіцієнтів, використаних у моделі
  • xiTβ= ваш стандартний лінійний предиктор
  • Перша підсумка представляє MSE (квадратичне розходження прогнозу від фактичного значення), яке ми хочемо мінімізувати, як завжди
  • друга сума представляє пеналізацію, яку ми застосовуємо за коефіцієнтами. Ось ми в контексті хребта, який передбачає евклідову міру відстані, а отже, ступінь 2 у терміні пеналізації. У випадку з ласо-пеналізацією ми застосуємо ступінь 1 і отримаємо абсолютно інший оцінювач.

Ми можемо переписати цей критерій у матричній нотації та далі розбити його:

CriterionRidge=(yXβ)T(yXβ)+λβTβ

=yTyβTXTyyTXβ+βTxTXβ+λβTβ

=yTyβTXTyβTXTy+βTXTXβ+βTλIβ з матрицею ідентичностіI

=yTy2βTXTy+βT(XTX+λI)β

Тепер ми шукаємо що мінімізує наш критерій. Серед інших ми використовуємо правило диференціації матриць яке ми можемо застосувати тут як : βxTAxx=(A+AT)x=A symmetric2Ax(XTX+λI)Rn×n

CriterionRidgeβ=2XTy+2(XTX+λI)β=!0

(XTX+λI)β=XTy

et voilàβ^=(XTX+λI)1XTy


@Jahn, чи можете ви поясніть, як став ? Я думаю, що ти щойно застосував транспонинг, правда. Але ви не можете просто застосувати транспонирование на одному терміні, не застосовуючи його до всього рівняння. Що я тут пропускаю?
yTXβ
βTXTy
театр

1
@theateist Транспонований скаляр - це той самий скаляр.
Костянтин

2

У наведених відповідях є кілька важливих речей.

  1. Рішення для виходить із необхідної умови першого порядку: що дає . Але чи достатньо цього? Тобто рішення є глобальним мінімумом лише у тому випадку, якщо є строго опуклим. Це може бути показано правдою.βfridge(β,λ)β=0β=(XTX+λI)1XTYfridge(β,λ)

  2. Ще один спосіб розглянути проблему - побачити еквівалентність між та обмежений . OLS означає звичайні найменші квадрати. З цієї точки зору - просто функція Лагрангія, яка використовується для пошуку глобальних мінімумів опуклої цільової функції обмежених опуклою функцією .fridge(β,λ)fOLS(β)=(YβTX)T(YβTX)||β||22tfridge(β,λ)fOLS(β)||β||22

Гарне пояснення цих моментів та виведення можна знайти в цих прекрасних конспектах лекцій: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdfβ

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.