Показано еквівалентність між нормалізованою регресією регрес та нормально обмеженою регресією за допомогою KKT


12

Відповідно до посилань Книга 1 , Книга 2 та папір .

Було зазначено, що існує рівнозначність між регульованою регресією (Ridge, LASSO та Elastic Net) та їх формулами обмеження.

Я також переглянув Cross Valified 1 та Cross Validated 2 , але я не можу побачити чітку відповідь, що свідчить про еквівалентність або логічність.

Моє запитання

Як показати цю еквівалентність за допомогою Каруша – Куна – Таккера (KKT)?

Наступні формули стосуються регресії Рейда.

Хребет

ПРИМІТКА

Це питання не є домашнім завданням. Це лише посилити моє розуміння цієї теми.

ОНОВЛЕННЯ

Я ще не маю ідеї.


Для чого вам потрібно більше 1 відповіді? З'являється поточна відповідь, щоб всебічно вирішити питання. Якщо ви хочете дізнатися більше про методи оптимізації, оптимізація Convex Lieven Vandenberghe та Stephen P. Boyd - це гарне місце для початку.
Sycorax повідомляє про відновлення Моніки

@Sycorax, дякую за ваші коментарі та книгу, яку ви мені надаєте. Відповідь для мене не така однозначна, і я не можу просити більше роз'яснень. Таким чином, більш ніж одна відповідь може дати мені бачити іншу точку зору та спосіб опису.
jeza

@jeza, чого не вистачає у моїй відповіді?
Рой

1
Будь ласка, введіть своє запитання як текст, а не публікуйте лише фотографію (див. Тут ).
gung - Відновіть Моніку

Відповіді:


10

Більш технічна відповідь полягає в тому, що обмежену проблему оптимізації можна записати через множники Лагранжа. Зокрема, Lagrangian, пов'язаний із проблемою обмеженої оптимізації, задається де - множник, вибраний для задоволення обмежень проблеми. Умови першого замовлення (які є достатніми, оскільки ви працюєте з хорошими правильними опуклими функціями) для цієї проблеми оптимізації, таким чином, можна отримати, диференціювавши Лагранжана відносно

L(β)=argminβ{i=1N(yij=1pxijβj)2}+μ{(1α)j=1p|βj|+αj=1pβj2}
μβта встановлення похідних рівним 0 (це трохи більш нюансовано, оскільки частина LASSO має недиференційовані точки, але є методи з опуклого аналізу, щоб узагальнити похідну, щоб умова першого порядку все ще працювала). Зрозуміло, що ці умови першого порядку ідентичні умовам першого порядку тієї невпинної проблеми, яку ви записали.

Однак я вважаю, що корисно зрозуміти, чому загалом із цими проблемами оптимізації часто можна думати про проблему або через об'єктив обмеженої проблеми оптимізації, або через об'єктив нестримної проблеми. Більш конкретно, припустимо, у нас є необмежена проблема оптимізації такої форми: Ми завжди можемо спробувати вирішити цю оптимізацію безпосередньо, але іноді може бути сенс розбити цю проблему на підкомпоненти. Зокрема, не важко помітити, що Отже, для фіксованого значення

maxxf(x)+λg(x)
maxxf(x)+λg(x)=maxt(maxxf(x) s.t g(x)=t)+λt
λ(і припускаючи, що функції для оптимізації фактично досягають своєї оптимізації), ми можемо пов’язати з ним значення яке вирішує задачу зовнішньої оптимізації. Це дає нам своєрідне відображення від необмежених проблем оптимізації до обмежених проблем. У вашій конкретній обстановці, оскільки все гарно поводиться за еластичну регресію сітки, це відображення насправді повинно бути одне до одного, тому корисним буде можливість перемикатися між цими двома контекстами залежно від того, який корисніший для конкретної програми. Взагалі, цей взаємозв'язок між обмеженими та необмеженими проблемами може бути менш сприятливим, але все ж може бути корисним подумати над тим, якою мірою ви можете рухатись між обмеженою та необмеженою проблемою.t

Редагувати: Як вимагається, я включу більш конкретний аналіз регресії хребта, оскільки він фіксує основні ідеї, уникаючи того, щоб мати справу з технічними особливостями, пов’язаними з нерівнозначністю штрафу LASSO. Нагадаємо, ми вирішуємо задачу оптимізації (у матриці):

argminβ{i=1NyixiTβ}s.t.||β||2M

Нехай - рішення OLS (тобто коли немає обмежень). Тоді я зупинюсь на тому випадку, коли(за умови, що це існує), оскільки в іншому випадку обмеження є нецікавим, оскільки воно не пов'язує. Лагранжан для цієї проблеми може бути записаний Потім диференціюючи , отримуємо умови першого порядку: що є просто системою лінійних рівнянь, і тому можна вирішити: βOLSM<||βOLS||

L(β)=argminβ{i=1NyixiTβ}μ||β||2M
0=2(i=1Nyixi+(i=1NxixiT+μI)β)
β^=(i=1NxixiT+μI)1(i=1Nyixi)
для вибору множника . Потім множник просто вибирається, щоб зробити обмеження справжнім, тобто нам це потрібноμ

((i=1NxixiT+μI)1(i=1Nyixi))T((i=1NxixiT+μI)1(i=1Nyixi))=M
яке існує, оскільки LHS є монотонним в . Це рівняння дає явне відображення від множників до обмежень, з коли RHS існує і Це відображення насправді відповідає чомусь досить інтуїтивно зрозумілому. Теорема конверт говорить про те , щоμμ(0,)M(0,||βOLS||)
limμ0M(μ)=||βOLS||
limμM(μ)=0
μ(M)відповідаю граничного зменшення похибки ми отримуємо від невеликої релаксації обмежень . Це пояснює, чому коли відповідає. Після того як обмеження не є обов'язковим, його розслаблення вже не має значення, саме тому множник зникає.Mμ0M||βOLS||


чи можете ви надати нам детальну відповідь, крок за кроком, з практичним прикладом, якщо це можливо.
jeza

велике спасибі, чому ви не згадуєте KKT? Я не знайомий з цією областю, тому ставляться до мене як до старшокласника.
jeza

Умови ККТ у цьому випадку є узагальненням умов «першого порядку», які я згадую, диференціюючи Лагранжана та встановлюючи похідну рівній 0. Оскільки в цьому прикладі обмеження мають рівність, нам умови ККТ не потрібні повний загалом. У більш складних випадках все, що трапляється, полягає в тому, що деякі з наведених вище рівностей перетворюються на нерівності, а множник стає 0, оскільки обмеження стають не обов'язковими. Наприклад, саме це відбувається, колиу вищесказаному. M>||βOLS||
stats_model

3

Існує чудовий аналіз stats_model у його відповіді .

Я спробував відповісти на подібне запитання в доказі еквівалентних формул хребтової регресії .

Я буду більше підходити до цієї справи.
Спробуємо побачити відображення між та у двох моделях.tλ

Як я писав і видно з stats_model в його аналізі, відображення залежить від даних. Отже, ми обрали конкретну реалізацію проблеми. І все ж код та замальовка рішення додадуть інтуїції тому, що відбувається.

Ми порівняємо наступні 2 моделі:

The Regularized Model: argminx12Axy22+λx22

The Constrained Model: argminx12Axy22subject tox22t

Припустимо, що є рішенням регульованої моделі і є рішенням обмеженої моделі.x^x~

Ми дивимося на відображення від до таким чином, що . Дивлячись на моє рішення в Solver для Norm Constraint найменших квадратів можна було бачити , що рішення обмежених Модель передбачає вирішення регуляризоване моделі і знайти , який відповідає (Фактичний код представлений в найменших квадратів з евклідової ( ) обмеження норми ).tλx^=x~
λtL2

Отже, ми запустимо один і той же розв'язувач і для кожного будемо відображати оптимальне .tλ

Розчинник в основному вирішує:

argλλsubject to(ATA+2λI)1ATb22t=0

Отже ось наша Матриця:

mA =

   -0.0716    0.2384   -0.6963   -0.0359
    0.5794   -0.9141    0.3674    1.6489
   -0.1485   -0.0049    0.3248   -1.7484
    0.5391   -0.4839   -0.5446   -0.8117
    0.0023    0.0434    0.5681    0.7776
    0.6104   -0.9808    0.6951   -1.1300

І ось наш вектор:

vB =

    0.7087
   -1.2776
    0.0753
    1.1536
    1.2268
    1.5418

Це відображення:

введіть тут опис зображення

Як видно вище, для досить високого значення параметр як очікувалося.tλ=0

Масштабування до діапазону [0, 10]:

введіть тут опис зображення

Повний код доступний у моєму перевіреному StackExchange Cross Valified Q401212 GitHub Repository .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.