Релаксація Лагрангія в умовах регресії хребта


15

У статті "Елементи статистичного навчання" (2-е видання), с. 63, автори дають наступні дві постановки проблеми регресії хребта:

β^ridge=argminβ{i=1N(yiβ0j=1pxijβj)2+λj=1pβj2}

і

β^ridge=argminβi=1N(yiβ0j=1pxijβj)2, subject to j=1pβj2t.

λt

Здавалося б, перша рецептура - це релаксація Лагрангія другого. Однак я ніколи не мав інтуїтивного розуміння того, як або чому працюють релаксації Лагрангія.

Чи є простий спосіб продемонструвати, що ці дві форми дійсно рівнозначні? Якщо мені доведеться вибирати, я віддаю перевагу інтуїції над строгістю.

Спасибі.


Якщо ви просто хочете інтуїтивного пояснення, перейдіть до 1.03.26 цього відео (до кінця), є інтуїтивне пояснення того, як обмеження стосуються цільової функції.
user603

Відповіді:


3

Листування можна найпростіше показати за допомогою теореми конвертів .

По-перше, стандартний лагранжанин матиме додатковий λттермін. Це не вплине на проблему максимізації, якщо ми просто лікуємосяλ як дано, так Hastie та ін.

Тепер, якщо ви розмежуєте повного лагранжанина щодо т, теорема конверта говорить, що ви можете ігнорувати непрямі наслідки т наскрізь β, бо ти максимум. Що вам залишиться - це мультиплікатор Lagrange відλт.

Але що це означає інтуїтивно? Оскільки обмеження пов'язується на максимумі, похідна лагранжана, оцінена за максимумом, є такою ж, як і деривація вихідної мети. Тому множник Лагранжа дає тіньову ціну - значення з точки зору цілі - розслаблення обмежень за рахунок збільшеннят.

Я припускаю, що це листування Hastie та ін. посилаються на.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.