Що таке норми і наскільки вони мають відношення до регуляризації?


12

Останнім часом я бачу багато робіт про розріджене уявлення, і більшість із них використовують норму і роблять деяку мінімізацію. Моє запитання: що є норма , а змішаною нормою? І наскільки вони мають відношення до регуляризації?p p , qppp,q

Дякую

Відповіді:


13

pНорми це функції, які приймають вектори та повертають неотримані числа. Вони визначаються як У випадку, коли p = 2 , це називається евклідовою нормою. Ви можете визначити евклідову відстань як \ | \ vec x - \ vec y \ | _2 . Коли p = \ infty , це просто означає \ | \ vec x \ | _ \ infty = \ sup_i x_i (або \ max_i x_i ). Строго кажучи, p повинен бути принаймні один, щоб \ | \ vec x \ | _p була нормою . Якщо 0 <p <1 , то \ | \ vec x \ | _p p = 2

xp=(i=1d|xi|p)1/p
p=2xy2p=x=supiximaxixipxp0<p<1xp насправді не є нормою, оскільки норми повинні задовольняти нерівність трикутника.

(Існують також норми , які визначені аналогічно, за винятком функцій замість векторів або послідовностей. Дійсно, це те саме, оскільки вектори - це функції з кінцевими областями.)Lp

Мені невідомо про використання норми в додатку машинного навчання, де , за винятком випадків, коли . Зазвичай ви бачите або , а іноді де ви хочете розслабити випадок; не є строго опуклим у , але є для . Це може полегшити пошук рішення у певних випадках.p>2p=p=2p=11<p<2p=1x1xxp1<p<

У контексті регуляризації, якщо ви додасте до своєї цільової функції, ви говорите про те, що ви очікуєте, що буде розрідженою , тобто здебільшого складається з нулів. Це трохи технічно, але в основному, якщо є щільне рішення, швидше за все, більш рідке рішення з тією ж нормою. Якщо ви очікуєте, що ваше рішення буде густим, ви можете додати до вашої мети, оскільки тоді набагато простіше працювати з його похідною. Обидва служать для того, щоб розчин не мав надто великої ваги.x1xx22

Змішана норма входить, коли ви намагаєтесь інтегрувати кілька джерел. В основному ви хочете, щоб вектор рішення складався з декількох частин , де - індекс деякого джерела. норма тільки -норма все -норма зібраний в векторі. Тобто,xjjp,qqp

xp,q=(j=1m(i=1d|xij|p)q/p)1/q

Мета цього - не "надмірне розмноження" набору рішень, скажімо, використовуючи . Окремі шматки рідкі, але ви не ризикуєте занести весь вектор розчину, взявши -норму всіх розчинів. Таким чином, ви використовуєте -норм зовні.x1,212

Сподіваюся, що це допомагає.

Докладнішу інформацію див. У цьому документі .


1
+1 для пояснення змішаних норм. Я ніколи їх сам не розумів.
Суреш Венкатасубраманійський

(+1) Приємна відповідь. Ласкаво просимо до CrossValidated, Джон!
MånsT
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.