Регульована лінійна проти RKHS-регресія


9

Я вивчаю різницю між регуляризацією в регресії RKHS і лінійною регресією, але мені важко зрозуміти вирішальну різницю між ними.

Дано пари введення-виведення (xi,yi), Я хочу оцінити функцію f() наступним чином

f(x)u(x)=i=1mαiK(x,xi),
де K(,)є функцією ядра. Коефіцієнтиαm можна або знайти, вирішивши
minαRn1nYKαRn2+λαTKα,
де, з деяким зловживанням позначенням, i,j '-й матриця ядра K є K(xi,xj) . Це дає
α=(K+λnI)1Y.
Як варіант, ми могли б трактувати проблему як нормальну проблему регресії хребта / лінійну регресію:
minαRn1nYKαRn2+λαTα,
з рішенням
α=(KTK+λnI)1KTY.

Яка була б вирішальна різниця між цими двома підходами та їх рішеннями?



@MThQ - Невже ваш опис «нормальної» регресії хребта все ще працює у подвійному? Просто для уточнення того, що я вважаю, що нормальна регресія хребта передбачається, що працює в первинному (де зроблено явне представлення функції).
rnoodle

Відповіді:


5

Як ви, напевно, помічали, записуючи проблеми оптимізації, єдиною відмінністю мінімізації є те, яку норму Гільберта використовувати для пеналізації. Тобто, для кількісного визначення того, які «великі» значення призначені для пеналізації. У налаштуваннях RKHS ми використовуємо внутрішній продукт RKHS , тоді як регресія хребта карається щодо евклідової норми.ααtKα

Цікавим теоретичним наслідком є ​​те, як кожен метод впливає на спектр ядра що відтворюється . За теорією RKHS ми маємо, що є симетричним позитивним певним. За спектральною теоремою можна записати де - діагональна матриця власних значень, а - ортонормальна матриця власних векторів. Отже, у налаштуванні RKHS Тим часом, у налаштуваннях регресії хребта зауважте, що за симетрією, KKK=UtDUDU

(K+λnI)1Y=[Ut(D+λnI)U]1Y=Ut[D+λnI]1UY.
KtK=K2
(K2+λnI)1KY=[Ut(D2+λnI)U]1KY=Ut[D2+λnI]1UKY=Ut[D2+λnI]1DUY=Ut[D+λnD1]1UY.
Нехай спектр буде . У регресії RKHS власні значення стабілізуються за допомогою . У регресії маємо . В результаті RKHS рівномірно змінює власні значення, тоді як Ridge додає більше значення, якщо відповідне менше.Kν1,,νnνiνi+λnνiνi+λn/νiνi

Залежно від вибору ядра, дві оцінки для можуть бути близькими або далекими одна від одної. Відстань у сенсі норми оператора буде Однак це все ще обмежено для даногоα

αRKHSαRidge2=ARKHSYARidgeY2[D+λnI]1[D+λnD1]1Y2maxi=1,,n{|(νi+λn)1(νi+λn/νi)1|}Y2maxi=1,,n{λn|1νi|(νi+λn)(νi2+λn)}Y2
Y, тож ваші два оцінки не можуть бути довільно далеко один від одного. Отже, якщо ваше ядро ​​близьке до ідентичності, то, швидше за все, буде мало різниці в підходах. Якщо ваші ядра сильно відрізняються, два підходи все одно можуть призвести до подібних результатів.

На практиці важко однозначно сказати, чи є один кращим, ніж інший для даної ситуації. Оскільки ми мінімізуємо по відношенню до квадратичної помилки при представленні даних з точки зору функції ядра, ми ефективно вибираємо кращу регресійну криву з відповідного простору функцій Гільберта. Отже, покарання щодо внутрішнього продукту RKHS, здається, є природним способом для продовження.


1
Чи є у вас посилання на це?
rnoodle
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.