Інтерпретація регуляризації хребта в регресії


25

У мене є кілька запитань щодо каймового штрафу в контексті найменших квадратів:

βridge=(λID+XX)1Xy

1) Вираз говорить про те, що матриця коваріації X скорочується до діагональної матриці, тобто, якщо припустити, що змінні стандартизовані перед процедурою, кореляція між вхідними змінними буде знижена. Чи правильне це тлумачення?

2) Якщо це додаток усадки, чому він не сформульований у рядках , припускаючи, що ми можемо якось обмежити лямбда до [0,1] діапазону з нормалізацією .(λID+(1λ)XX)

3) Що може бути нормалізацією для щоб вона могла бути обмежена до стандартного діапазону типу [0,1].λ

4) Додавання константи до діагоналі вплине на всі власні значення. Чи було б краще атакувати лише одиничні чи близькі однинні значення? Чи еквівалентно застосуванню PCA до X та збереженню основних-N основних компонентів до регресії чи це має іншу назву (оскільки вона не змінює обчислення міжваріантної коваріації)?

5) Чи можемо ми регулювати перехресну коваріацію, чи вона має якусь користь, тобто

βridge=(λID+XX)1(γXy)

де мала знизить поперечну коваріацію. Очевидно, це знижує всі s однаково, але, можливо, є розумніший спосіб, як жорсткий / м'який поріг залежно від значення коваріації.βγβ


iirc грядовий штраф походить від обмеження, що , шляхом множника Лагранжа на цільовій функції MSE. LASSO те саме, але ззамість цього. Я телефоную, тому наразі не можу легко розмістити виведення. Але це великі запитання| β |β2T|β|
shadowtalker

Відповіді:


19

Гарні запитання!

  1. Так, це абсолютно правильно. Ви можете бачити гребінну кару як один із можливих способів вирішити проблему мультиколінеарності, яка виникає, коли багато предикторів сильно співвідносяться. Введення штрафного покарання ефективно знижує ці співвідношення.

  2. Я думаю, що це частково традиція, частково той факт, що формула регресії хребта, зазначена у вашому першому рівнянні, випливає з наступної функції витрат:Якщо , другий член може бути відхилений, а мінімізація першого терміна ("помилка відновлення") призводить до стандартної формули OLS для . Збереження другого терміна призводить до формули . Ця функція витрат є математично дуже зручною для вирішення, і це може бути однією з причин віддати перевагу "ненормованої" лямбда.λ = 0 β β r i d g e

    L=yXβ2+λβ2.
    λ=0ββridge
  3. Один із можливих способів нормалізувати - це масштабувати його за сумарною дисперсією , тобто використовувати замість . Це не обов'язково обмежується до , але зробить його "безрозмірним" і, ймовірно, призведе до того, що оптимальне значення буде менше у всіх практичних випадках (зверніть увагу: це лише здогадка!).t r ( XX ) λ t r ( XX ) λ λ [ 0 , 1 ] λ 1λtr(XX)λtr(XX)λλ[0,1]λ1

  4. "Напад на лише невеликі власні значення" має окрему назву і називається регресією основних компонентів. Зв'язок між ПЛР та регресією хребта полягає в тому, що при ПЛР ви фактично маєте «ступінчастий штраф», відрізаючи всі власні значення після певного числа, тоді як регресія хребта застосовує «м'яке покарання», штрафуючи всі власні значення, а менші штрафи отримують більше. Це добре пояснено в «Елементах статистичного навчання » Хасті та ін. (у вільному доступі в Інтернеті), розділ 3.4.1. Дивіться також мою відповідь у взаємозв'язку між регресією хребта та регресією PCA .

  5. Я ніколи цього не бачив, але зауважте, що ви можете розглянути функцію витрат у форміЦе зменшує вашу не до нуля, а до якогось іншого попередньо визначеного значення . Якщо хтось відпрацьовує математику, ви досягнете оптимального заданого що, можливо, можна розглядати як "регуляризаційну перехресну коваріацію"?β β 0 β β = ( XX + λ I ) - 1 ( Xy + λ β 0 ) ,

    L=yXβ2+λββ02.
    ββ0β
    β=(XX+λI)1(Xy+λβ0),

1
Чи можете ви пояснити, чому додавання до означає, що коваріаційна матриця зменшена до діагональної матриці? Я думаю, це суто лінійне питання алгебри. X X XλIDXXX
Гейзенберг

3
@ Гейзенберг, ну, - матриця коваріації (до коефіцієнта масштабування ). Обчислення вимагає інвертування цієї коваріаційної матриці. У регресії хребта ми замість цього перетворюємо , тому можна побачити як регульовану оцінку матриці коваріації. Тепер термін - діагональна матриця з на діагоналі. Уявіть, що дуже великий; то в сумі переважає діагональний доданок , і тому регуляризована коваріація стає все більш і більше діагональною, оскільки росте.X 1 / N βXXX1/NβX X + λ I λ I λ λ λ I λXX+λIXX+λIλIλλλIλ
амеба каже, що повернеться Моніка

wrt Q5, Елементи статистичного навчання розглядають обмеження гладкості для програм обробки зображень (PDA - стор. 447)
seanv507

10

Подальший коментар до питання 4. Насправді регресія хребта досить ефективно справляється з малими власними значеннями , залишаючи в основному великі власні значення. XTX

Щоб побачити це, висловіть оцінювач регресії хребта з точки зору сингулярного розкладання значення , X

X=i=1nσiuiviT

де вектори взаємно ортогональні, а також взаємно ортогональні. Тут власними значеннями є , . v i X T X σ 2 i i = 1 , 2 , , nuiviXTXσi2i=1,2,,n

Тоді ви можете це показати

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

Тепер розглянемо "фактори фільтра" . Якщо , то коефіцієнти фільтра дорівнюють 1, і ми отримуємо звичайне рішення найменших квадратів. Якщо і , то коефіцієнт фільтра є по суті 1. Якщо , то цей коефіцієнт по суті дорівнює 0. Таким чином, терміни, що відповідають малим власним значенням, фактично випадають, тоді як терміни, що відповідають більшим власним значенням, зберігаються. λ = 0 λ > 0 σ 2 iλ σ 2 iλσi2/(σi2+λ)λ=0λ>0σi2λσi2λ

Для порівняння, в цій формулі регресія основних компонентів просто використовує коефіцієнти 1 (для більших власних значень) або 0 (для менших власних значень, які випадають).


1
Це саме те, про що я коротко згадував у своїй відповіді, але дуже приємно, щоб це було детально продемонстровано та продемонстровано математично, +1.
амеба каже, що відбудеться Моніка

5

Запитання 1, 2 і 3 пов'язані між собою. Мені подобається думати , що так, введення штрафу Рідж в моделі лінійної регресії можна інтерпретувати як усадка Про власні значення . Для того, щоб зробити цю інтерпретацію, слід спочатку зробити припущення, що по центру. Ця інтерпретація базується на наступній еквівалентності: з і . Якщо , то відразу випливає, що .X λ x + y = κ ( α x + ( 1 - α ) y ) , α = λXX

λx+y=κ(αx+(1α)y),
κ=1+λ0λ<+0<α1α=λ1+λκ=1+λ0λ<+0<α1

Техніка, яку ви описуєте як "атаку [инг] лише на сингулярні чи близькі сингулярні значення", також відома як сингулярний аналіз спектра (з метою лінійної регресії) (див. Ур. 19), якщо під "атакою" ви маєте на увазі "видалення ". Перехресна коваріація не змінюється.

Видалення низьких сингулярних значень також здійснюється за допомогою регресії основних компонентів . У ПЛР проводиться PCA на і застосовується лінійна регресія на вибір отриманих компонентів. Відмінність від SSA полягає в тому, що він впливає на перехресну коваріацію.X


Дякую. У ПЛР коваріацію з y обчислюють після виконання зменшення розмірності, ні? Це різниця між PCR і SSA? Ваша гама (не моя), як вибрати, що так альфа буде обмежено [0,1]?
Cagdas Ozgenc

1
Вибачте за цю заплутану , я замінюю її на . κγκ
Вінсент Гільємот

Я думаю, що ви правильні щодо різниці між SSA та PCR, але ми повинні це записати, щоб бути впевненим.
Вінсент Гільємот
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.