Доведення коефіцієнтів усадки за допомогою регресії хребта за допомогою "спектрального розкладання"


20

Я зрозумів, як регресія хребта зменшує коефіцієнти до нуля геометрично. Більше того, я знаю, як довести це в спеціальній "Ортонормічній справі", але мене бентежить, як це працює в загальному випадку за допомогою "Спектральної декомпозиції".


4
Ви заявили, що ви розгублені, але яке ваше питання?
whuber

Відповіді:


30

Здається, питання вимагає продемонструвати, що регрес Рідж зменшує оцінки коефіцієнтів до нуля, використовуючи спектральне розкладання. Спектральне розкладання можна зрозуміти як легкий наслідок розкладання сингулярного значення (SVD). Тому ця публікація починається з SVD. Він пояснює це простими словами, а потім ілюструє це важливими програмами. Потім він забезпечує запитувану (алгебраїчну) демонстрацію. (Звичайно, алгебра ідентична геометричній демонстрації; вона просто купірується іншою мовою.)

Оригінальне джерело цієї відповіді можна знайти в моїх записках з регресійного курсу . Ця версія виправляє деякі незначні помилки.


Що таке SVD

Будь-яку матрицю , з , можна записати деX p n X = U D V n×pXpn

X=UDV
  1. n × pU - матриця .n×p

    • Стовпці мають довжину .1U1
    • Стовпці взаємно ортогональні.U
    • Вони називаються головними компонентами з .X
  2. V - матриця .p×p

    • Стовпці мають довжину .V1
    • Стовпці взаємно ортогональні.V
    • Це робить на обертання в .VRp
  3. D - діагональна матриця .p×p

    • Діагональні елементи не від'ємні. Ці особливі значення з .d11,d22,,dppX
    • За бажанням ми можемо замовити їх від найбільшого до найменшого.

Критерії (1) і (2) стверджують, що і і є ортонормальними матрицями. Їх можна акуратно підсумувати за умовамиUV

UU=1p, VV=1p.

Як наслідок (що являє собою обертання), також. Це буде використано в деривації регресної регресії нижче.VVV=1p

Що це робить для нас

Це може спростити формули. Це працює як алгебраїчно, так і концептуально. Ось кілька прикладів.

Нормальні рівняння

Розглянемо регресію де, як завжди, незалежні та однаково розподілені відповідно до закону, який має нульові очікування та кінцеву дисперсію . Рішення найменших квадратів через звичайні рівняння - Застосування SVD та спрощення отриманого алгебраїчного безладу (що легко) дає хороше розуміння:y=Xβ+εεσ2

β^=(XX)1Xy.

(XX)1X=((UDV)(UDV))1(UDV)=(VDUUDV)1(VDU)=VD2VVDU=VD1U.

Єдина відмінність між цим і полягає в тому, що використовуються зворотні елементи елементів ! Іншими словами, "рівняння" розв'язується шляхом "інвертування" : ця псевдоінверсія скасовує обертання і (просто шляхом їх переміщення) і скасовує множення (представлене ) окремо в кожному головному напрямку.X=VDUDy=XβXUVD

Для подальшої довідки зауважте, що "поворотні" оцінки є лінійними комбінаціями "обертаних" відповідей . Коефіцієнти - це звороти (позитивних) діагональних елементів , рівних .Vβ^UyDdii1

Коваріація оцінок коефіцієнта

Нагадаємо, що коваріація оцінок - Використовуючи SVD, це стає Іншими словами, коваріація діє подібно до ортогональних змінних, кожна з варіаціями , які повернуті в .

Cov(β^)=σ2(XX)1.
σ2(VD2V)1=σ2VD2V.
k dii2Rk

Матриця капелюха

Матриця капелюхів -За допомогою попереднього результату ми можемо переписати його якПросто!

H=X(XX)1X.
H=(UDV)(VD1U)=UU.

Ейгенаналіз (спектральний розпад)

Оскільки та то негайно

XX=VDUUDV=VD2V
XX=UDVVDU=UD2U,
  • Власні значення і - це квадрати сингулярних значень.XXXX
  • Стовпці є власними векторами .VXX
  • Стовпці - деякі з власних векторів . (Інші власні вектори існують, але відповідають нульовим власним значенням.)UXX

SVD може діагностувати та вирішувати проблеми колінеарності.

Апроксимація регресорів

Замінивши найменші значення однини на нулі, ви змінить твір лише незначно. Однак тепер нулі усувають відповідні стовпці , ефективно зменшуючи кількість змінних. За умови, що ці усунені стовпці мають невелику кореляцію з , це може ефективно працювати як техніка зменшення змінних.UDVUy

Регрес хребта

Нехай стовпці будуть стандартизовані, як і сам . (Це означає, що нам більше не потрібен постійний стовпчик у ) Для оцінювач хребта XyXλ>0

β^R=(XX+λ)1Xy=(VD2V+λ1p)1VDUy=(VD2V+λVV)1VDUy=(V(D2+λ)V)1VDUy=V(D2+λ)1VVDUy=V(D2+λ)1DUy.

Різниця між цим і є заміна по . β^D1=D2D(D2+λ)1DПо суті, це помножує оригінал на дріб . Оскільки (коли ) знаменник, очевидно, більший за чисельник, параметр оцінює "зменшення до нуля".D2/(D2+λ)λ>0


Цей результат слід розуміти у дещо тонкому сенсі, на який натякали раніше: поворотні оцінки все ще є лінійними комбінаціями векторів , але кожен коефіцієнт - який раніше був - помножено на коефіцієнт . Таким чином, обертаються коефіцієнти повинні скорочуватися, але можливо, коли є достатньо малим, деякі з самі фактично збільшуються в розмірі.Vβ^RUydii1dii2/(dii2+λ)λβ^R

Щоб уникнути відволікань, у цій дискусії був виключений випадок одного з більше нульових сингулярних значень. За таких обставин, якщо ми умовно вважаємо " " рівним нулю,dii1 то все одно працює. Це те, що відбувається, коли для вирішення нормальних рівнянь використовуються узагальнені звороти .


1
@Glen_b Це хороший момент: мені потрібно було чітко визначити, про яку фракцію я розглядав! Я це виправлю.
whuber

1
(1) Частина рівняння стверджує, що крапковий добуток кожного стовпця з собою дорівнює , звідки кожна довжина (за визначенням) . (2) випливає із спостереження, що - матриця обертання, оскільки це означає, що також є матрицею обертання. Тому . Підключення до дає . UU=1pU11=1VV=1pVV1(V1)(V1)=1pV1=VVV=(V)V=1p
whuber

1
@Vimal Дякую за гарну пропозицію. Зараз я включив пояснення в розділ "Нормальні рівняння", де вводиться модель регресії.
whuber

1
Коли симетричний, то за визначенням Порівнюючи ліву і праву сторони негайно показує діагоналізації реальної симетричною матриці є окремим випадком СВД , а також передбачає , що в СВД симетричною матриці, . Це насправді так, за умови, що є невиродженим, але доведення цього не зовсім елементарне, тому я не буду вникати в деталі. X
VDU=X=X=UDV.
U=VX
качан

1
@ whuber, о, це так? У встановленому значенні ми будемо використовувати оцінки коефіцієнтів і доки вони скоротяться до нуля, те станеться і з пристосованим значенням. y^
jeza
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.