Регресія хребта оцінює параметри в лінійній моделі \ mathbf y = \ mathbf X \ boldsymbol \ beta по \ hat {\ boldsymbol \ beta} _ \ lambda = (\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I) ^ {- 1} \ mathbf X ^ \ top \ mathbf y, де \ lambda - параметр регуляризації. Загальновідомо, що він часто працює краще, ніж регресія OLS (з \ lambda = 0 ), коли існує багато корельованих прогнозів.& beta ; А , = ( Х ⊤ Х + А , I ) - 1 х ⊤ у , А , А , = 0
Теорема існування для регресії хребта говорить про те, що завжди існує параметр такий, що середня квадратична помилка суворо менша, ніж середня квадратична помилка OLS оцінка . Іншими словами, оптимальне значення завжди не нульове. Це, очевидно, було вперше доведено в Hoerl and Kennard, 1970, і повторюється в багатьох конспектах лекцій, які я знаходжу в Інтернеті (наприклад, тут і тут ). Моє запитання щодо припущень цієї теореми:
Чи є припущення щодо матриці коваріації ?
Чи є припущення щодо розмірності ?
Зокрема, чи справедлива теорема, якщо прогноктори є ортогональними (тобто є діагональною), або навіть якщо ? І чи все-таки це правда, якщо є лише один-два передбачувачі (скажімо, один провісник і перехоплювач)?
Якщо теорема не робить таких припущень і залишається вірною навіть у цих випадках, то чому регресія хребта зазвичай рекомендується лише у випадку співвіднесених предикторів, і ніколи (?) Не рекомендується для простої (тобто не множинної) регресії?
Це пов’язано з моїм питанням про Уніфікований погляд на усадку: яке співвідношення (якщо воно є) між парадоксом Штейна, регресією хребта та випадковими ефектами у змішаних моделях? , але відповіді там ще не уточнюють цей момент.