Межа оцінювача регресії хребта "одинична дисперсія" при


21

Розглянемо регресію хребта з додатковим обмеженням, що вимагає, щоб має одиницю суми квадратів (еквівалентно одиниці дисперсії); при необхідності можна припустити, що має одиничну суму квадратів:y^y

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1.

Яка межа β^λ коли λ ?


Ось кілька тверджень, які я вважаю вірними:

  1. Коли λ=0 , є чітке явне рішення: візьміть оцінювач OLS β^0=(XX)1Xy і нормалізуйте його, щоб задовольнити обмеження (це можна побачити, додавши множник Лагранжа і диференціюючи):

    β^0=β^0/Xβ^0.
  2. Загалом, рішення -

    β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.
    Я не бачу рішення закритої форми, коли λ>0 . Здається, що рішення еквівалентне звичайному оцінювачу RR з деяким λ нормалізованим для задоволення обмежень, але я не бачу закритої формули для λ .
  3. Коли λ , звичайний оцінювач RR

    β^λ=(XX+λI)1Xy
    очевидно сходить до нуля, але його напрямок β^λ/β^λконвергується до напрямку Xy , він же є першим частковим компонентом найменших квадратів (PLS).

Висловлювання (2) і (3) разом змушують мене думати, що, можливо, β^λ також сходиться до належним чином нормалізованого Xy , але я не впевнений, чи це правильно, і я так і не зумів переконати себе.

Відповіді:


17

Геометрична інтерпретація

Оцінювач, описаний у запитанні, є еквівалентом множника Лагранжа наступної задачі оптимізації:

minimize f(β) subject to g(β)t and h(β)=1 

f(β)=yXβ2g(β)=β2h(β)=Xβ2

який геометрично можна розглядати як пошук найменшого еліпсоїда який торкається перетину сфери та еліпсоїдаf(β)=RSS g(β)=th(β)=1


Порівняння зі стандартним регресійним видом на кряж

З точки зору геометричного виду це змінює старий вигляд (для стандартної регресії хребта) точки, де торкаються сфероїда (помилки) та сфери ( )β2=t . У новий погляд, де ми шукаємо точку, коли сфероїд (помилки) торкається кривої (норма бета, обмежена ) . Одна сфера (синій на лівому зображенні) змінюється на фігуру нижнього розміру через перетин з обмеженням .X β 2 = 1X β = 1Xβ2=1Xβ=1

У двовимірному випадку це просто для перегляду.

геометричний вигляд

Коли ми налаштовуємо параметр тоді ми змінюємо відносну довжину синьо / червоної сфер або відносні розміри та (В теорії лагранжевих множників, мабуть, існує акуратний спосіб формально і точно опишіть, що це означає, що для кожного як функція , або зворотний, є монотонною функцією. Але я думаю, що ви можете зрозуміти, що сума квадратних залишків збільшується лише тоді, коли ми зменшимо .)tf(β)g(β) t λ | | β | |tλ||β||

Рішення для є таким, як ви сперечалися на лінії між 0 іβλλ=0βLS

Рішення для є (справді, як ви прокоментували) у завантаженні першого основного компонента. Це точка, коли є найменшою для . Це точка, де коло торкається еліпса в одній точці.βλλβ2βX2=1β2=t|Xβ|=1

У цьому краї перетину сфери і сфероїда є точками. У кількох розмірах це будуть кривіβ2=tβX2=1

(Спочатку я уявив, що ці криві будуть еліпсами, але вони складніші. Ви можете уявити, що еліпсоїд перетинається кулькою як деякі різновид еліпсоїдного фрусту, але з ребрами, які не є простими еліпсами)Xβ2=1β2t


Щодо обмеженняλ

Спочатку (попередні редагування) я писав, що буде деякий обмежувальний над яким всі рішення однакові (і вони знаходяться у точці ). Але це не такλlimβ

Розглянемо оптимізацію як алгоритм LARS або спуск градієнта. Якщо для будь-якої точки існує напрямок, в якому ми можемо змінити таким чином, щоб термін покарання збільшувався менше, ніж термін SSR зменшується, то ви не знаходяться як мінімум .ββ|β|2|yXβ|2

  • У нормальній регресії хребта у вас є нульовий нахил (у всіх напрямках) для у точці . Тож для всіх кінцевих рішення не може бути (оскільки можна зробити нескінченно малий крок для зменшення суми квадратних залишків без збільшення штрафу).|β|2β=0λβ=0
  • Для LASSO це не те саме, оскільки: штраф є (тому він не є квадратичним з нульовим нахилом). Через це LASSO матиме деяке обмежувальне значення вище якого всі рішення дорівнюють нулю, оскільки термін покарання (помножений на ) збільшиться більше, ніж зменшиться залишкова сума квадратів.|β|1λlimλ
  • Для обмеженого хребта ви отримуєте те саме, що і звичайна регресія хребта. Якщо змінити починаючи з ця зміна буде перпендикулярна до ( перпендикулярно поверхні еліпса ) і може змінюватися нескінченно малим кроком, не змінюючи штрафний термін, але зменшуючи суму залишків у квадраті. Таким чином, для будь-яких кінцевих точка не може бути рішенням.ββ β β | X β | = 1 β λββ|Xβ|=1βλβ

Подальші примітки щодо обмеженняλ

Звичайна межа регресії хребта для до нескінченності відповідає різній точці обмеженої регресії хребта. Ця "стара" межа відповідає точці, коли дорівнює -1. Тоді похідна функції Лагранжа в нормованій задачіλμ

2(1+μ)XTXβ+2XTy+2λβ
відповідає рішенню для похідної функції Лагранжа в стандартній задачі

2XTXβ+2XTy+2λ(1+μ)βwith β=(1+μ)β


Автор StackExchangeStrike


+1. Велике спасибі, це дуже корисно! Мені знадобиться певний час, щоб продумати це.
амеба каже, що повернеться Моніка

Варто зазначити, що червоний і чорний еліпсоїди мають однакову форму: саме тому точка, де вони торкаються, лежить на лінії, що з'єднує їх центри. Хороший графічний доказ точки №1 в моєму запитанні.
амеба каже, що повернеться до Моніки

Я намагаюсь зрозуміти, де на вашому малюнку знаходиться бета-версія, що відповідає оцінці хребта з нескінченною лямбда, нормалізованою, щоб лежати на чорному еліпсі. Я думаю, що це десь між та (використовуючи моє позначення) - дві точки, позначені чорним відкритим колом на вашому малюнку. Отже, якщо ми робимо регресію хребта і нормалізуємо розчин і збільшуємо лямбда від 0 до нескінченності, це, ймовірно, веде нас по одній дузі, але не цілим шляхом до PC1. Натомість, явне введення обмеження змушує рішення пройти весь шлях до PC1. β X β = 1β0βXβ=1
амеба каже, що відбудеться Моніка

+5 (Я розпочав щедроту, яку з радістю нагороджу за вашу відповідь). Я також розмістив свою власну відповідь, тому що я робив деякі алгебраїчні виведення, і це було занадто багато, щоб додати питання. Я не переконаний у вашому висновку, що з'явиться деякий кінцевий після якого рішення більше не зміниться і буде надано PC1. Я не бачу це алгебраїчно, і я не зовсім розумію ваш аргумент, чому він повинен існувати. Спробуємо розібратися в цьому. λlim
Амеба каже, що повернеться Моніка

@amoeba, ви мали рацію щодо того, що кінцева не існує. Я надто інтуїтивно сперечався і швидко переходив від конкретної умови регулярної регресії хребта до обмеженої регресії хребта. Звичайний RR має нульовий нахил (у всіх напрямках) для у точці . Я подумав, що (оскільки ) ви не отримаєте цього при обмеженій регресії. Однак тому, що обмежується еліпсоїдом ви не можете "рухатися" в усіх напрямках. | β | 2 β = 0 β 0 β | X β | = 1 βλlim|β|2β=0β0β|Xβ|=1β
Sextus Empiricus

10

Це алгебраїчний аналог прекрасної геометричної відповіді @ Мартійна.

Перш за все, межа коли дуже легко отримати: в обмеженні перший член функції втрати стає мізерним і, таким чином, може не враховуватися. Проблема оптимізації стає що є першим головним компонентомА , Нт А , & beta ; * А , = & beta ; * = г г

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1
λX
limλβ^λ=β^=argminXβ2=1β2argmaxβ2=1Xβ2,
X(відповідне масштабування). Це відповідає на питання.

Тепер розглянемо рішення для будь-якого значення яке я згадував у пункті 2 свого запитання. Додаючи до функції втрати множник Лагранжа і диференціюючи, отримаємоμ ( X β 2 - 1 )λμ(Xβ21)

β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.

Як поводиться це рішення, коли зростає від нуля до нескінченності?λ

  • Коли , ми отримуємо масштабовану версію рішення OLS:β * 0 ~ β 0 .λ=0

    β^0β^0.
  • Для позитивних, але малих значень , рішення є масштабованою версією деякого оцінювача хребта:& beta ; * λ ~ & beta ; λ * .λ

    β^λβ^λ.
  • Коли, значення необхідне для задоволення обмеження, дорівнює . Це означає, що рішення є масштабованою версією першого компонента PLS (це означає, що відповідного оцінювача хребта ):λ=XXy(1+μ)0λ

    β^XXyXy.
  • Коли стає більшим за це, необхідний термін стає негативним. Відтепер рішення є масштабованою версією оцінювача псевдозрідження з негативним параметром регуляризації ( негативний гребінь ). З точки зору напрямів, ми минули регрес хребта з нескінченною лямбда.λ(1+μ)

  • Коли , термін піде в нуль (або розходиться до нескінченність), якщо де є найбільшим значенням однини . Це зробить кінцевим і пропорційним першій головній осі . Нам потрібно встановити щоб задовольнити обмеження. Таким чином, ми отримуємо, щоλ((1+μ)XX+λI)1μ=λ/smax2+αsmaxX=USVβ^λV1μ=λ/smax2+U1y1

    β^V1.

Загалом, ми бачимо, що ця обмежена проблема мінімізації охоплює одиничні дисперсійні версії OLS, RR, PLS та PCA у наступному спектрі:

OLSRRPLSnegative RRPCA

Здається, це еквівалентно незрозумілій (?) Хіміометрічній структурі під назвою "континуальна регресія" (див. Https://scholar.google.de/scholar?q="continuum+regression " , зокрема Stone & Brooks 1990, Sundberg 1993, Björkström & Sundberg 1999 і т. Д.), Яка дозволяє те саме об'єднання, максимізуючи спеціальний критерій ім'яЦе, очевидно, дає масштабований OLS, коли , PLS, коли , PCA, коли , і може бути показано, щоб отримати масштабований RR за

T=corr2(y,Xβ)Varγ(Xβ)s.t.β=1.
γ=0γ=1γ0<γ<11<γ< , див. Sundberg 1993.

Незважаючи на те, що я маю досить багато досвіду роботи з RR / PLS / PCA / тощо, я мушу визнати, що раніше ніколи не чув про «регресію континууму». Я також повинен сказати, що цей термін мені не подобається.


Схему, яку я зробив на основі одного @ Martijn:

Одинично-дисперсійний регрес гребеня

Оновлення: малюнок оновлений негативною доріжкою хребта, величезне спасибі @Martijn за те, що він запропонував виглядати. Детальну інформацію див. У моїй відповіді в « Розуміння негативної регресії хребта» .


«Неперервна регресія», здається, є однією з дивно широких категорій методів, спрямованих на об'єднання ПЛС та СПС у загальні рамки. Я ніколи про це не чув, до речі, поки не досліджував негативний хребет (я надаю посилання на папку Bjorkstron & Sundberg, 1999, в першому коментарі до питання про негативний хребет, на який ви посилаєтесь), хоча це, здається, досить широко обговорюється в хімічна література. Має бути якась історична причина, чому вона розвивалася, здавалося б, ізольовано від інших галузей статистики. (1/3)
Райан Сіммонс

Один документ, який ви можете прочитати, - це де Йонг та ін. (2001) . Їх формулювання "канонічних PLS", схоже, на швидкому погляді є рівнозначним вашому, хоча, я визнаю, я ще не суворо порівнював математику (вони також містять огляд кількох інших узагальнень PLS-PCA в тому ж дусі). Але може бути глибоко зрозуміти, як вони пояснили проблему. (2/3)
Райан Сіммонс

Якщо посилання вмирає, повна цитата: Сіджмен де Йонг, Баррі М. Мудрий, Н. Лоуренс Рікер. "Канонічні часткові найменші квадрати та безперервна регресія потужності". Журнал хіміометрії, 2001; 15: 85-100. doi.org/10.1002/… (3/3)
Райан Сіммонс

1
ах, добре, тоді і переходять до нескінченності, але їх співвідношення залишається . У будь-якому випадку шлях регресії від'ємного гребеня повинен знаходитись у (негативному) секторі між векторами PLS та PCA таким чином, щоб їх проекція на еліпсзнаходиться між точками PLS і PCA. (норма, що йде до нескінченності, має сенс, оскільки йде до нескінченності, тому шлях продовжується до правого нижнього кута, спочатку дотичного до, від'ємного, PLS і, зрештою, до PCA) 1 + μ ± s 2 m a x | X β = 1 | мкλ1+μ±smax2|Xβ=1|μ
Sextus Empiricus

1
Це додало б візуалізації. Я уявляю, що три поточні точки шляху RR (де дотик до кола та еліпсоїда) тривають вниз праворуч і, врешті-решт, у нескінченності коло та еліпсоїд повинні 'торкання' в напрямку від на місці , де коло стосується еліпсоїда | X ( β - β ) | 2 = R S S | β | 2 = t p c a | X β | 2 = 1|β|2=t|X(ββ^)|2=RSS|β|2=tpca|Xβ|2=1
Секст Емпірика
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.