Як здійснити регуляризацію L2 до довільної точки в просторі?


11

Ось, що я читав у книзі Ієна Гудфеллоу « Глибоке навчання» .

У контексті нейронних мереж "штраф норми параметра L2 зазвичай називають зменшенням ваги. Ця стратегія регуляризації приводить ваги ближче до початку [...]. Більш загально, ми могли б регулювати параметри, щоб бути поблизу будь-якої конкретної точки в просторі ", але набагато частіше регуляризувати параметри моделі до нуля. (Глибоке навчання, Goodfellow та ін.)

Мені просто цікаво. Я розумію, що просто додавши термін регуляризації до нашої функції витрат і що, мінімізуючи цю загальну вартість ми можемо вплинути на параметри моделі, щоб вони залишилися невеликими:J

J(Θ,X,y)=L(Θ,X,y)+λ||w||22

Але як би реалізувати версію цієї стратегії регуляризації, яка б привела параметри до будь-якої довільної точки? (скажімо, ми хочемо, щоб норма тяжіла до 5)

Відповіді:


14

Ви насправді задаєте два різні питання.

  1. Якщо норма має тенденцію до 5, то це означає, що ви хочете, щоб ваги знаходилися біля поверхні гіперсфери, зосередженої на джерелі з радіусом 5. Це регуляризація виглядає приблизно як

J(Θ,X,y)=L(Θ,X,y)+λ(||w||225)2

Але ви можете замість цього використати щось на кшталт λabs(||w||225) .

  1. З іншого боку, якщо ви хочете прагнути до довільної точки, вам просто потрібно використовувати цю точку як центр c .

J(Θ,X,y)=L(Θ,X,y)+λ||wc||22

(+1) Я думаю, що плідним способом подумати про "норму, що має тенденцію до п'яти" може бути через вибір параметра настроювання у версії заданої ОП (а не зміною функції)J
user795305

(Я написав коротку відповідь, щоб уточнити, що я маю на увазі вище. Дякую, до речі, за уточнення відмінності двох заданих питань!)
user795305

загальною (практичною) метою при цьому є регуляризація до деякої відомої робочої точки, наприклад, попередньої моделі, яку ви хочете замінити, але для якої ви хочете "плавний" перехід
oDDsKooL

6

ВизначтеМи знаємо, що , через штраф має походження як його мінімізатор.

w^λ=argminwL(Θ,X,y)+λw22.
limλw^λ=0ww22

Sycorax вказує, що так самоЦе успішне узагальнення може призвести до того, що ми запропонуємо оцінювач де є функцією чий мінімізатор задовольняє деяку властивість, яку ми прагнемо. Дійсно, Sycorax приймає , де (однозначно) мінімізовано за початком, і, зокрема, . Тому , як бажано. На жаль, однак обидва варіантиlimλ{argminwL(Θ,X,y)+λwc22}=c.

w~λ=argminwL(Θ,X,y)+λpen(w),
penpen(w)=g(w225)gg{||,()2}limλw~λ22=5gпризводять до покарань, які не є випуклими, що призводить до того, що оцінювач важко підрахувати.

Наведений вище аналіз здається найкращим рішенням (можливо, до вибору , для якого я не маю кращого запропонувати), якщо ми наполягаємо на як унікальну інтерпретацію "прагне" до, описану в питання. Однак, якщо припустити, що , існує деяка кількість щоб мінімізатор проблемних задач ОП . Тому не потрібно змінювати цільову функцію. Якщо такого існує, то проблема обчисленьgλargminwL(Θ,X,y)225Λw^Λw^Λ22=5

limλΛw^λ22=5,
Λargminw:w22=5L(Θ,X,y) суттєво важко. Дійсно, немає потреби враховувати будь-який оцінювач, окрім коли намагаються заохотити природні властивості .w^λw^λ22

(Звернути увагу на те, що санкціонований оцінювач набуває значення штрафу, якого не досягає неосвоєний оцінювач, здається мені вкрай неприродним. Якщо хтось знає про місця, де це насправді бажано, будь ласка, прокоментуйте його!)


1
Це відмінне доповнення. +1
Sycorax повідомляє про відновлення Моніки

2

Для відповідного можна розглядати його як негативну ймовірність логарифмів, а відповідна регуляризація може розглядатися як негативна ймовірність журналу для попереднього розповсюдження. Такий підхід називається Maximum A Posteriori (MAP).LJ

Слід побачити приклади Sycorax у світлі MAP.

Детальніше про MAP можна переглянути ці примітки . З мого досвіду googling "максимум післяопераційне регуляризація" дає хороші результати.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.