Як знайти коефіцієнти регресії в регресії хребта?


14

У регресії хребта цільовою функцією, яку слід мінімізувати, є:

RSS+λβj2.

Чи можна це оптимізувати за допомогою методу множника Лагранжа? Або це пряма диференціація?


1
Який зв’язок між заголовком (який фокусується на ) та питанням (яке, мабуть, стосується лише )? Я стурбований тим, що "бути оптимізованим" могло мати різну інтерпретацію залежно від того, які змінні вважаються тими, які можна змінювати, а які - виправляти. β jλβj
whuber

1
спасибі змінили питання. Я читав, що знайдений шляхом перехресної перевірки, але я вважаю, що це означає, що у вас є і використовуєте різні дані, щоб знайти найкраще Питання - як ви знайдете у перше місце, коли невідомий? β j λ β j λλβjλβjλ
Мінай

Відповіді:


22

Існує дві рецептури для проблеми хребта. Перший - це

βR=argminβ(yXβ)(yXβ)

на тему

jβj2s.

Цей склад показує обмеження розміру на коефіцієнти регресії. Зверніть увагу, що означає це обмеження; ми змушуємо коефіцієнти лежати в кулі навколо початку, радіусом .s

Друга рецептура - це саме ваша проблема

βR=argminβ(yXβ)(yXβ)+λβj2

що може розглядатися як мультиплікаційний склад Ларгранжа. Зауважте, що тут є параметром настройки, і більші його значення приведуть до більшої усадки. Ви можете перейти до диференціації виразу відносно та отримати відомий оцінювач гребнівλβ

(1)βR=(XX+λI)1Xy

Дві рецептури є повністю рівнозначними , оскільки існує відповідність один до одного між та .sλ

Дозвольте трохи детальніше розглянути це. Уявіть, що ви перебуваєте в ідеальному ортогональному випадку . Це дуже спрощена та нереальна ситуація, але ми можемо дослідити оцінку трохи ближче, тому поводиться зі мною. Поміркуйте, що відбувається з рівнянням (1). Оцінка гребеня зводиться доXX=I

βR=(I+λI)1Xy=(I+λI)1βOLS

як і в ортогональному випадку, оцінювач OLS задається . Дивлячись на цей компонент, мудрий заразβOLS=Xy

(2)βR=βOLS1+λ

Тоді зауважте, що тепер усадка є постійною для всіх коефіцієнтів. У загальному випадку це може бути недоступним, і справді можна показати, що усадки будуть сильно відрізнятися, якщо в матриці є виродження .XX

Але повернемося до обмеженої проблеми оптимізації. За теорією KKT , необхідною умовою оптимальності є

λ(βR,j2s)=0

тому або або (у цьому випадку ми говоримо, що обмеження є обов'язковим). Якщо , немає пенальті, і ми знову в звичайній ситуації з OLS. Припустимо, тоді обмеження є обов'язковим, і ми опинимось у другій ситуації. Використовуючи формулу в (2), ми маємоλ=0βR,j2s=0λ=0

s=βR,j2=1(1+λ)2βOLS,j2

звідки ми отримуємо

λ=βOLS,j2s1

відносини один на один, заявлені раніше. Я думаю, що це важче встановити в неортогональному випадку, але результат несе незалежність.

Подивіться ще раз на (2), і ви побачите, що ми все ще відсутня . Щоб отримати оптимальне значення для нього, ви можете скористатися перехресною валідацією або переглянути слід хребта. Останній метод включає побудову послідовності в (0,1) і перегляд того, як змінюються оцінки. Потім вибираєте яка їх стабілізує. Цей метод був запропонований у другому з наведених нижче посилань, і є найдавнішим.λλλ

Список літератури

Херль, Артур Е. та Роберт В. Кеннард. "Регресія хребта: Об'єктивна оцінка неортогональних проблем". Технометрія 12.1 (1970): 55-67.

Херль, Артур Е. та Роберт В. Кеннард. "Регресія хребта: додатки до неортогональних проблем." Технометрія 12.1 (1970): 69-82.


2
Регресія @Minaj Ridge має постійну усадку для всіх коефіцієнтів (крім перехоплення). Ось чому є лише один множник.
ДжонК

2
@amoeba Це пропозиція Херла та Кеннард, людей, які впровадили регресію хребта в 1970-х. Виходячи з їх досвіду - і мого - коефіцієнти будуть стабілізуватися в цьому інтервалі навіть при екстремальних ступенях мультиколінеарності. Звичайно, це емпірична стратегія, і тому не гарантовано працювати весь час.
ДжонК

2
Ви також можете просто скористатися методом псевдоспостереження і отримати оцінки, що не має нічого складнішого за програму регресії прямолінійних найменших квадратів. Ви також можете дослідити ефект зміни подібним чином. λ
Glen_b -Встановіть Моніку

2
@amoeba Це правда, що хребет не є інваріантним за шкалою, тому загальноприйнята практика попередньо стандартизувати дані. Я включив відповідні посилання на випадок, якщо ви хочете подивитися. Вони надзвичайно цікаві і не настільки технічні.
ДжонК

2
@JohnK фактично регресія хребта скорочує кожну на різну кількість, тому усадка не є постійною, хоча є лише один параметр усадки . βλ
Френк Харрелл

4

Мої книги " Стратегії моделювання регресії" заглиблюються у використання ефективного AIC для вибору . Це походить від пеніалізованої вірогідності журналу та ефективних ступенів свободи, останній залежить від того, наскільки зменшення відхилень зменшуються пеналізацією. Презентація про це є тут . R Пакет Знаходить , який оптимізує ефективний АІК, а також дозволяє кілька параметрів штрафу (наприклад, один для лінійних основних ефектів, один для нелінійних основних ефектів, один для лінійних ефектів взаємодії, і один для нелінійних ефектів взаємодії).λβ^rmspentraceλ


1
+1. Що ви думаєте про використання помилки CV-відпуску, обчисленої за чіткою формулою (тобто без фактичного виконання CV), для вибору ? Чи маєте ви якесь уявлення про те, як це на практиці порівнюється з "ефективним АПК"? λ
амеба каже, що повернеться до Моніки

Я цього не вивчав. LOOCV займає багато обчислень.
Френк Харрелл


1
Ця формула працює для особливого випадку OLS, а не для максимальної ймовірності в цілому. Але є приблизна формула з використанням залишків балів. Я розумію, що в основному ми говоримо про OLS в цій дискусії.
Френк Харрелл

1

Я не роблю це аналітично, а скоріше чисельно. Я зазвичай будувати RMSE проти λ як такий:

введіть тут опис зображення

Рисунок 1. RMSE і константа λ або альфа.


Чи означає це, що ви фіксуєте певне значення а потім диференціюєте вираз, щоб знайти 's, після якого ви обчислюєте RMSE і виконуєте процес знову за новими значеннями ? β j λλβjλ
Мінай
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.