Зв'язок між регресією хребта та регресією PCA


19

Я пам’ятаю, що десь в Інтернеті прочитав зв’язок між регресією хребта (з регуляризацією) та регресією PCA: використовуючи регресію з гіперпараметром , якщо , то регресія еквівалентна видаленню ПК змінна з найменшим власним значенням.22λλ0

  • Чому це правда?
  • Чи має це щось спільне з процедурою оптимізації? Наївно, я б очікував, що це буде рівнозначно OLS.
  • Хтось має на це посилання?

1
Не могли б ви пояснити більш чітко, як PCA та регресія пов'язані у вашій заяві? Регресія відрізняє залежні від незалежних змінних, тоді як нічого подібного не відбувається в PCA. Тож до яких змінних ви застосовуєте PCA? Це не може бути просто незалежними змінними, оскільки це мало б стосується регресії. Але якщо він застосовується до всіх змінних, то власні вектори - це лінійні комбінації їх усіх. Що може означати видалення будь-якого такого компонента з набору даних, оскільки він включає залежну змінну?
whuber

1
З'єднання (наскільки я розумію) полягає в тому, що якщо ви використовуєте дуже маленький штраф за регуляризацію, регресія, регульована L2, видалить змінну, яка має найменше власне значення. Тому виконання SVD на проектній матриці та видалення змінної з найменшим власним значенням еквівалентно регресії з "м'яким" штрафом регуляризації ... Це найближче пояснення, яке я знайшов цьому: sites.stat.psu. edu / ~ jiali / курс / stat597e / notes2 / lreg.pdf
Jose G

3
Здається, що ваша посилання демонструє протилежне тому, що ви говорите у коментарях: для малих в результатах дуже мало змін. Нічого не знімається взагалі. Насправді, кілька слайдів, схоже, спрямовані на вказівку на різницю між пенізованою регресією (в якій оцінки зменшуються до ) та "регресією PCA" (в якій найменші компоненти повністю видалені - що може бути дуже поганою справою за деяких обставин). L 2 0λL20
whuber

2
Ммм .. знайшов ще одне посилання: statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf На слайді " та основні компоненти" сказано, що регресія хребта проектує y на ці компоненти з великими dj * зітхання *уriгге
Jose G

3
Ви помітили, що с. 14 цієї останньої посилання прямо відповідає на ваше запитання?
whuber

Відповіді:


23

Нехай - центрована матриця провіктора і розглянемо його сингулярне розкладання значення при цьому є діагональною матрицею з діагональними елементами . n × p X = U S VS s iХн×pХ=USVSсi

Встановлені значення регресії найменших звичайних квадратів (OLS) задаютьсяВстановлені значення регресії хребта задаютьсяВстановлені значення регресії PCA (PCR) з компонентами задаютьсяУ гядге=X& betaRядге=X(XX+ЛI)-1Xу=U

у^ОLS=ХβОLS=Х(ХХ)-1Ху=UUу.
до у РСР=ХРСβРСР=U
у^riгге=Хβriгге=Х(ХХ+λЯ)-1Ху=Uгiаг{сi2сi2+λ}Uу.
кk
у^ПСR=ХПСАβПСR=Uгiаг{1,,1,0,0}Uу,
де є , з якими нулі.к

Звідси ми можемо побачити, що:

  1. Якщо то .у г я д г е = у Про л Sλ=0у^riгге=у^ОLS

  2. Якщо то більша сингулярна величина , тим менше вона буде штрафована в регресії хребта. Малі одиничні значення ( та менші) найбільше штрафуються.s i s 2 iλλ>0сiсi2λ

  3. Навпаки, при регресії PCA великі сингулярні значення зберігаються неушкодженими, а маленькі (після певного числа ) повністю видаляються. Це відповідатиме для перших та для решти.λ = 0 k λ = кλ=0кλ=

  4. Це означає, що регресія хребта може розглядатися як "гладка версія" ПЛР.

    (Ця інтуїція корисна, але не завжди виконується; наприклад, якщо всі приблизно рівні, то регресія хребта зможе лише приблизно однаково покарати всі основні компоненти і може сильно відрізнятися від PCR).XсiХ

  5. Регресія хребта має тенденцію до кращого результату на практиці (наприклад, для вищої перехресної перевірки).

  6. Відповідаючи зараз на ваше запитання: якщо , то . Я не бачу, як це може відповідати видаленню найменшого . Я думаю, що це неправильно.у г я д г еу Про л S з яλ0у^riггеу^ОLSсi

Одним із хороших посилань є «Елементи статистичного навчання» , розділ 3.4.1 «Регресія хребта».


Дивіться також цю тему: Інтерпретація регуляризації хребта в регресії та, зокрема, відповідь @BrianBorchers.


сi-βLеаст-сqуаrес

к
Uдіагностувати(11,12,...,1к,0,...,0)UТу

Це прекрасно.
xxx222

6

Елементи статистичного навчання ведуть велику дискусію з цього приводу.

Я розтлумачив цей зв'язок і логіку таким чином:

  • PCA - це лінійна комбінація змінних характеристик, що намагається максимально розмежувати дані, пояснені новим простором.
  • Дані, які страждають від мультиколінеарності (або більше предикторів, ніж рядки даних), призводять до матриці коваріації, яка не має повного рангу.
  • За допомогою цієї матриці коваріації ми не можемо інвертувати для визначення рішення найменших квадратів; це змушує числове наближення коефіцієнтів найменших квадратів підірватися до нескінченності.
  • Рідж Регресія вводить штрафну лямбду на матриці коваріації, щоб дозволити інверсію матриці та конвергенцію коефіцієнтів LS.

З'єднання PCA полягає в тому, що регрес Рейда обчислює лінійні комбінації функцій, щоб визначити, де відбувається мультиколінеарність. Лінійні комбінації особливостей (Принциповий аналіз компонентів) з найменшою дисперсією (а отже, меншими сингулярними значеннями та меншими власними значеннями в PCA) - ті, що найсуворіше штрафуються.

Думай про це так; для лінійних комбінацій функцій з найменшою дисперсією ми знайшли особливості, які найбільше схожі, що обумовлює мультиколінеарність. Оскільки Ridge не зменшує набір функцій, незалежно від того, в якому напрямку описується ця лінійна комбінація, оригінальна функція, що відповідає цьому напрямку, найбільше штрафується.


2

Хβ=у,
Х
Х=USVТ,
S=діагностувати(сi)

β

βОLS=VS-1UТ
сi

S-1β

Sхребет-1=діагностувати(сiсi2+α),βхребет= VSхребет-1UТ

S-1

SPCA-1=діагностувати(1сiθ(сi-γ)),βPCA= VSPCA-1UТ
θγ

Таким чином, обидва способи послаблюють вплив підпросторів, що відповідають малим значенням. PCA робить це важким шляхом, тоді як хребет - більш плавний підхід.

SmyReg-1=діагностувати(R(сi)),
R(х)х0R(х)х-1х

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.