Нехай - центрована матриця провіктора і розглянемо його сингулярне розкладання значення при цьому є діагональною матрицею з діагональними елементами . n × p X = U S V ⊤ S s iХn × pX = U S V⊤Sсi
Встановлені значення регресії найменших звичайних квадратів (OLS) задаютьсяВстановлені значення регресії хребта задаютьсяВстановлені значення регресії PCA (PCR) з компонентами задаютьсяУ гядге=X& betaRядге=X(X⊤X+ЛI)-1X⊤у=U
у^O L S= X βO L S= X ( X⊤X )- 1Х⊤y = U U⊤у .
до у РСР=ХРСβРСР=Uу^r i d g e= X βr i d g e= X ( X⊤X +λ I )- 1Х⊤y = Ud i a g { s2iс2i+ λ} U⊤у .
кkу^P C R= XП С АβP C R= Ud i a g { 1 , … , 1 , 0 , … 0 } U⊤у ,
де є , з якими нулі.
к
Звідси ми можемо побачити, що:
Якщо то .у г я д г е = у Про л Sλ = 0у^r i d g e= у^O L S
Якщо то більша сингулярна величина , тим менше вона буде штрафована в регресії хребта. Малі одиничні значення ( та менші) найбільше штрафуються.s i s 2 i ≈ λλ > 0сiс2i≈ λ
Навпаки, при регресії PCA великі сингулярні значення зберігаються неушкодженими, а маленькі (після певного числа ) повністю видаляються. Це відповідатиме для перших та для решти.λ = 0 k λ = ∞кλ= 0кλ = ∞
Це означає, що регресія хребта може розглядатися як "гладка версія" ПЛР.
(Ця інтуїція корисна, але не завжди виконується; наприклад, якщо всі приблизно рівні, то регресія хребта зможе лише приблизно однаково покарати всі основні компоненти і може сильно відрізнятися від PCR).XсiХ
Регресія хребта має тенденцію до кращого результату на практиці (наприклад, для вищої перехресної перевірки).
Відповідаючи зараз на ваше запитання: якщо , то . Я не бачу, як це може відповідати видаленню найменшого . Я думаю, що це неправильно.у г я д г е → у Про л S з яλ → 0у^r i d g e→ у^O L Sсi
Одним із хороших посилань є «Елементи статистичного навчання» , розділ 3.4.1 «Регресія хребта».
Дивіться також цю тему: Інтерпретація регуляризації хребта в регресії та, зокрема, відповідь @BrianBorchers.