Регуляризація L2 еквівалентна пріоритету Гаусса


56

Я продовжую читати це і інтуїтивно можу це бачити, але як можна перейти від регуляризації L2 до того, що аналітично це Гаос-пріор? Те саме говорить і те, що L1 еквівалентний попередньому Лапласану.

Будь-які подальші посилання були б чудовими.

Відповіді:


54

Уявімо собі, що ви хочете зробити деякий параметр з деяких спостережуваних пар вхід-вихід . Припустимо, що виходи лінійно пов'язані з входами через і що дані пошкоджені деяким шумом :β(x1,y1),(xN,yN)βϵ

yn=βxn+ϵ,

де - гауссовий шум із середнім значенням та дисперсією . Це породжує ймовірність Гаусса:ϵ0σ2

n=1NN(yn|βxn,σ2).

Давайте регулюємо параметр , наклавши пріоритет Гаусса де - строго позитивний скаляр. Отже, поєднуючи ймовірність і попереднє, ми просто маємо:βN(β|0,λ1),λ

n=1NN(yn|βxn,σ2)N(β|0,λ1).

Візьмемо логарифм наведеного виразу. Відкидаючи деякі константи, ми отримуємо:

n=1N1σ2(ynβxn)2λβ2+const.

Якщо ми максимізуємо вищенаведений вираз стосовно , ми отримаємо так звану максимальну a-posteriori оцінку для , або MAP для коротких. У цьому виразі стає очевидним, чому Гауссова попередня може бути інтерпретована як термін регуляризації L2.ββ


Так само взаємозв'язок між нормою L1 та попереднім Лапласом можна зрозуміти однаково. Візьміть замість Гаусса пріоритет, а Лаплас попередньо поєднайте його зі своєю ймовірністю та візьміть логарифм.

Хорошим посиланням (можливо, дещо вдосконаленим), в якому детально описані обидва питання, є документ "Адаптивна розрідженість для контрольованого навчання", який наразі в Інтернеті не так легко знайти. Альтернативно подивіться на "Адаптивна розрідженість за допомогою Джефріса Пріор" . Ще одна хороша довідка - "Про байєсівську класифікацію з пріорами Лапласа" .


1
У D dimensionлінійної регресії випадку може betaі sigmaмати явні рішення? Я читаю PRML і знаходжу рівняння (1.67) на сторінці 30 і не знаю, як його вирішити. З максимальною ймовірністю вирішуємо, betaа потім sigmaвстановлюючи градієнт до нуля. У регуляризованому найменшому квадраті, оскільки lambdaвідомий параметр рекларизації , ми вирішуємо betaбезпосередньо. Але якщо ми безпосередньо вирішити ПДЧ, що порядок вирішення beta, sigma? Чи можуть вони мати чітке рішення або ми повинні використовувати ітераційний процес?
стік потоку

Ви пропускаєте "квадрат" на в останньому рівнянні, тобто ? λ β 2λβλβ2
brian.keng

@AdamO Обмежує кількість значень, які можуть приймати коефіцієнти. Якщо, наприклад, попередній показник становить від 1 до 10, то існує ймовірність коефіцієнта, який приймає будь-яке інше значення, тобто [-inf до 1] та [10, + inf].
imsrgadich

1
У цьому випадку відомий. Чи працює, коли невідомо? Для лінійної регресії Баєса, для формування кон'югату перед дисперсією може бути використана інверсна гамма-діаграма. Але я не впевнений, що алгебра складе той самий вираз. σ 2σ2σ2
АдамО

11

Для лінійної моделі з багатоваріантною нормальною попередньою і багатоваріантною нормальною ймовірністю ви закінчуєте багатоваріантний нормальний задній розподіл, в якому середнє значення задньої (і максимум моделі післяоріорі) саме те, що ви отримали б за допомогою регульованого Тихонова ( регуляризовані) найменші квадрати з відповідним параметром регуляризації. L2

Зауважимо, що існує більш принципова відмінність у тому, що байєсівська задня частина є розподілом вірогідності, тоді як рішення тихоновських регульованих найменших квадратів - це конкретна точкова оцінка.

Про це йдеться в багатьох підручниках про байєсівські методи зворотних задач.

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

Аналогічно, якщо у вас є лапласіанська раніше і багатоваріантна нормальна ймовірність, то максимум заднього розподілу відбувається в точці, яку ви могли отримати, вирішивши задачу мінімальними квадратними розмірами. L1


9

Перше зауважте, що медіана мінімізує норму L1 (див. Тут або тут, щоб дізнатися більше про L1 та L2)

median(x)=argminsi|xis|1

при цьому середнє значення мінімізує L2

mean(x)=argminsi|xis|2

Тепер нагадаємо, що параметр нормальних розподілів можна оцінити, використовуючи середнє значення вибірки , тоді як оцінка MLE для параметра розподілу Laplace є середньою. Тож використання нормального розподілу еквівалентно оптимізації норми L2 та використанню розподілу Лапласа, використанню оптимізації L1. На практиці ви можете думати про це як про те, що медіана менш чутлива до середніх, ніж середня, і те саме, використання попередньо розподіленого Лапласа розподілу вашої моделі робить вашу модель менш схильною до людей, ніж використання нормальних.µμμ


Hurley, WJ (2009) Індуктивний підхід до обчислення MLE для подвійного експоненціального розподілу . Журнал сучасних прикладних статистичних методів: 8 (2), стаття 25.


Можливо, це не найточніша математично відповідь, дана тут, але це, безумовно, найпростіша, найінтуїтивніша для початківця в регуляризації L1 / L2 для розуміння.
SQLServerSteve

8

Для проблеми регресії з змінними (без перехоплення) ви робите OLS якk

minβ(yXβ)(yXβ)

У регульованій регресії з покаранням ви виконуєтеLp

minβ(yXβ)(yXβ)+λi=1k|βi|p

Ми можемо рівнозначно робити (зазначити зміни знаку)

maxβ(yXβ)(yXβ)λi=1k|βi|p

Це безпосередньо стосується байєсівського принципу Росії

posteriorlikelihood×prior

або еквівалентно (за умов регулярності)

log(posterior)log(likelihood)+log(penalty)

Зараз не важко зрозуміти, який експоненціальний розподіл сім'ї відповідає якому виду покарання.


3

Точніше кажучи:

Оптимізація вагових моделей для мінімізації функції втрат у квадраті помилок з регуляризацією L2 еквівалентна знаходженню ваг, які, швидше за все, під задньою розподілом, оціненими за правилом Байєса, з попередньою нульовою середньою незалежністю Гаусса

Доказ:

Функцію втрат, як описано вище, надавали б

L=[n=1N(y(n)fw(x(n)))2]Originallossfunction+λi=1Kwi2L2loss

Зверніть увагу, що розподіл для багатоваріантного Гаусса є

N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(12(xμ)Σ1(xμ))

Використовуючи правило Байєса, ми маємо це

p(w|D)=p(D|w)p(w)p(D)p(D|w)p(w)[nNN(y(n);fw(x(n)),σy2)]N(w;0,σw2I)nNN(y(n);fw(x(n)),σy2)i=1KN(wi;0,σw2)

Де ми можемо розділити багатовимірний Гаассіан на продукт, оскільки коваріація є кратною матриці тотожності.

Візьміть негативну ймовірність журналу

log[p(w|D)]=n=1Nlog[N(y(n);fw(x(n)),σy2)]i=1Klog[N(wi;0,σw2)]+const.=12σy2n=1N(y(n)fw(x(n)))2+12σw2i=1Kwi2+const.

Звичайно, ми можемо скинути константу і помножити на будь-яку кількість, не впливаючи принципово на функцію втрат. (константа нічого не робить, множення ефективно масштабує швидкість навчання. Не вплине на розташування мінімумів) Отже, ми можемо бачити, що ймовірність негативного журналу заднього розподілу є еквівалентною функцією втрат, як функція втрати регульованої квадратної помилки L2.

Цей еквівалент є загальним і має значення для будь-якої параметризованої функції ваг - не лише лінійної регресії, як здається, мається на увазі вище.


1

Існує дві характеристики байєсівського моделювання, які необхідно підкреслити, обговорюючи рівноважність певної оціненої максимальної ймовірності й баєсівські процедури.

  1. У байєсівських рамках пріоритет вибирається на основі специфіки проблеми і не мотивується обчислювальною доцільністю. Отже, байєси використовують різноманітні пріори, включаючи популярну в даний час підкову для розріджених проблем із прогнозуванням, і не потрібно так сильно покладатися на пріори, що еквівалентні штрафам L1 або L2.
  2. При повному байєсівському підході ви маєте доступ до всіх інфекційних процедур, коли закінчите. Наприклад, ви можете кількісно оцінити докази великих коефіцієнтів регресії, і ви можете отримати достовірні інтервали щодо коефіцієнтів регресії та загальних прогнозованих значень. Коли ви вибираєте штраф, ви часто втрачаєте всю інфекційну машину.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.