За яких саме умов регресія хребта може забезпечити поліпшення порівняно з регресією найменших звичайних квадратів?


16

Регресія хребта оцінює параметри в лінійній моделі \ mathbf y = \ mathbf X \ boldsymbol \ beta по \ hat {\ boldsymbol \ beta} _ \ lambda = (\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I) ^ {- 1} \ mathbf X ^ \ top \ mathbf y, де \ lambda - параметр регуляризації. Загальновідомо, що він часто працює краще, ніж регресія OLS (з \ lambda = 0 ), коли існує багато корельованих прогнозів.β& beta ; А , = ( ХХ + А , I ) - 1 ху , А , А , = 0y=Xβ

β^λ=(XX+λI)1Xy,
λλ=0

Теорема існування для регресії хребта говорить про те, що завжди існує параметр λ>0 такий, що середня квадратична помилка β^λ суворо менша, ніж середня квадратична помилка OLS оцінка β^OLS=β^0 . Іншими словами, оптимальне значення λ завжди не нульове. Це, очевидно, було вперше доведено в Hoerl and Kennard, 1970, і повторюється в багатьох конспектах лекцій, які я знаходжу в Інтернеті (наприклад, тут і тут ). Моє запитання щодо припущень цієї теореми:

  1. Чи є припущення щодо матриці коваріації XX ?

  2. Чи є припущення щодо розмірності X ?

Зокрема, чи справедлива теорема, якщо прогноктори є ортогональними (тобто XX є діагональною), або навіть якщо XX=I ? І чи все-таки це правда, якщо є лише один-два передбачувачі (скажімо, один провісник і перехоплювач)?

Якщо теорема не робить таких припущень і залишається вірною навіть у цих випадках, то чому регресія хребта зазвичай рекомендується лише у випадку співвіднесених предикторів, і ніколи (?) Не рекомендується для простої (тобто не множинної) регресії?


Це пов’язано з моїм питанням про Уніфікований погляд на усадку: яке співвідношення (якщо воно є) між парадоксом Штейна, регресією хребта та випадковими ефектами у змішаних моделях? , але відповіді там ще не уточнюють цей момент.


1
Здається, все, окрім останнього питання, безпосередньо розглядається в документі Hoerl & Kennard, особливо у першому реченні Вступу та першому реченні Висновків. На останнє запитання можна відповісти, зазначивши, що коваріація між константним вектором і будь-яким єдиним предиктором завжди дорівнює нулю, що дозволяє (стандартним способом) звести до матриці . 1×1XX1×1
whuber

1
Дякую, @whuber. Я вважаю, що папір Hoerl & Kennard відповідає на мої запитання (принаймні технічні) - треба мати можливість слідувати за доказом та перевіряти припущення (я цього ще не робив). Але я не повністю переконаний у реченнях, на які ви посилаєтесь. Як перше речення Вступного стосується мого запитання? Перше речення Висновків говорить про те, що якщо має однаковий спектр (наприклад, дорівнює ), то теорема не застосовується. Але я не впевнений на 100%, оскільки не вважаю, що це припущення прямо викладено перед доказом. IXXI
Амеба каже: Відновити Моніку

Подивіться, які питання можуть задавати високопоставлені користувачі (які, як правило, відповідають лише на них) (а також для вашого іншого пов'язаного питання, яке мені надіслало тут stats.stackexchange.com/questions/122062/… !
javadba

Відповіді:


11

Відповідь як на 1, так і на 2 - ні, але потрібно дбати про інтерпретацію теореми існування.

Варіант оцінювача хребта

Нехай являє собою оцінку хребта за штрафом , а - вірний параметр для моделі . Нехай є власними значеннями . З рівнянь Горла та Кеннара 4.2-4.5 ризик (з точки зору очікуваної норми помилки ) становить kβY=Xβ^kβλ 1 , , λ p X T X L 2Y=Xβ+ϵλ1,,λpXTX
L2

E([β^β]T[β^β])=σ2j=1pλj/(λj+k)2+k2βT(XTX+kIp)2β=γ1(k)+γ2(k)=R(k)
куди, наскільки я можу сказати, Вони зазначають, що має інтерпретацію дисперсії внутрішнього добутку , тоді як є внутрішнім продуктом зміщення.(XTX+kIp)2=(XTX+kIp)1(XTX+kIp)1.γ1β^βγ2

Припустимо, що , тоді Нехай - похідна від ризику w / r / t . Оскільки , то робимо висновок, що існує деякий такий, що .XTX=Ip

R(k)=pσ2+k2βTβ(1+k)2.
R(k)=2k(1+k)βTβ(pσ2+k2βTβ)(1+k)3
klimk0+R(k)=2pσ2<0k>0R(k)<R(0)

Автори зазначають, що ортогональність - це найкраще, на що можна сподіватися з точки зору ризику при , і що при збільшенні кількості умови , підходи .k=0XTXlimk0+R(k)

Прокоментуйте

Тут виявляється парадокс, що якщо і є постійними, ми просто оцінюємо середнє значення послідовності Normal , і ми знаємо ванільну неупереджену оцінку допустимо в цьому випадку. Це вирішується, помічаючи, що вищезазначене міркування лише передбачає, що значення, що мінімізує існує для фіксованого . Але для будь-якого ми можемо зробити ризик вибухнути, зробивши великим, тому один аргумент не показує допустимості для оцінки гребня.p=1X(β,σ2)kβTβkβTβ

Чому регресію хребта зазвичай рекомендують лише у випадку співвіднесених предикторів?

Виведення ризику H & K показує, що якщо ми вважаємо, що невелика, і якщо конструкція майже сингулярна, то ми можемо досягти великих зменшень ризику оцінки. Я думаю, що регресія хребта не використовується повсюдно, оскільки оцінка OLS - це безпечний дефолт, а також властивості інваріантності та неупередженості привабливі. Коли вона не вдається, вона чесно виходить з ладу - ваша матриця коваріації вибухає. Можливо, є також філософський / інфекційний момент, що якщо ваш дизайн майже єдиний, і у вас є дані спостереження, то тлумачення як зміни для зміни одиниць у є підозрюваним - велика матриця коваріації є симптом того. βTβXTXβEYX

Але якщо ваша мета - виключно прогнозування, інфекційні проблеми вже не мають сили, і у вас є вагомий аргумент щодо використання якогось оцінювача усадки.


2
Нічого, дякую! Дозвольте мені перевірити своє розуміння вашого розділу "Коментар": для будь-якого заданого оптимальна не дорівнює нулю, але її значення різне для різних бета-версій, і жоден фіксований може перевищувати для всіх бета-версій, тобто що потрібно для прийнятності. Правильно? Окрім цього, чи можете ви прокоментувати моє загальне запитання: [якщо теорема не передбачає таких припущень, то] чому регресія хребта зазвичай рекомендується лише для корельованих прогнозів, і ніколи не рекомендується для простої (не множинної) регресії? Це тому, що позитивний ефект, емпірично відомо, занадто малий, щоб турбувати? βkkk=0
Амеба каже: Відновити Моніку

2
H&K послідовно припускають, що є повноцінним. Заявляючи, що відповідь на номер 1 - "ні", ви стверджуєте, що їх результати продовжують бути вірними, коли їх немає? XX
whuber

3
@whuber: Основним для їх виведення є ризик, що оцінка хребта , де - оцінка OLS, а . Це явно не може бути таким, коли має дефіцит. Але оцінка OLS не існує - тому, можливо, будь-яка оцінка з кінцевим ризиком (візьміть досить великий, і ви отримаєте , з ризиком ) краще ніж оцінювач, який не існує? Що стосується виведення ризику: я не впевнений. Буде потрібен інший доказ. β^=Zβ^β^Z=((XTX)1+kIp)1XTXkβ^0βTβ
Андрій М

3
@amoeba: так, ваш переказ здається правильним. Для домінування в оцінці OLS нам потрібна якась адаптивна процедура, в якій є функцією даних. На вашій іншій темі Сіан мав коментар щодо адаптивних оцінок хребта, так що це може бути місце для пошуку. RE: кошторисні оцінки для ортогональних конструкцій - я додав ще один коментар, що стосується настанов, які я б взяв із їх підтвердження. λ
Ендрю М
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.