Відповіді:
Уявімо собі, що ви хочете зробити деякий параметр з деяких спостережуваних пар вхід-вихід . Припустимо, що виходи лінійно пов'язані з входами через і що дані пошкоджені деяким шумом :
де - гауссовий шум із середнім значенням та дисперсією . Це породжує ймовірність Гаусса:
Давайте регулюємо параметр , наклавши пріоритет Гаусса де - строго позитивний скаляр. Отже, поєднуючи ймовірність і попереднє, ми просто маємо:
Візьмемо логарифм наведеного виразу. Відкидаючи деякі константи, ми отримуємо:
Якщо ми максимізуємо вищенаведений вираз стосовно , ми отримаємо так звану максимальну a-posteriori оцінку для , або MAP для коротких. У цьому виразі стає очевидним, чому Гауссова попередня може бути інтерпретована як термін регуляризації L2.
Так само взаємозв'язок між нормою L1 та попереднім Лапласом можна зрозуміти однаково. Візьміть замість Гаусса пріоритет, а Лаплас попередньо поєднайте його зі своєю ймовірністю та візьміть логарифм.
Хорошим посиланням (можливо, дещо вдосконаленим), в якому детально описані обидва питання, є документ "Адаптивна розрідженість для контрольованого навчання", який наразі в Інтернеті не так легко знайти. Альтернативно подивіться на "Адаптивна розрідженість за допомогою Джефріса Пріор" . Ще одна хороша довідка - "Про байєсівську класифікацію з пріорами Лапласа" .
Для лінійної моделі з багатоваріантною нормальною попередньою і багатоваріантною нормальною ймовірністю ви закінчуєте багатоваріантний нормальний задній розподіл, в якому середнє значення задньої (і максимум моделі післяоріорі) саме те, що ви отримали б за допомогою регульованого Тихонова ( регуляризовані) найменші квадрати з відповідним параметром регуляризації.
Зауважимо, що існує більш принципова відмінність у тому, що байєсівська задня частина є розподілом вірогідності, тоді як рішення тихоновських регульованих найменших квадратів - це конкретна точкова оцінка.
Про це йдеться в багатьох підручниках про байєсівські методи зворотних задач.
http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/
http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/
Аналогічно, якщо у вас є лапласіанська раніше і багатоваріантна нормальна ймовірність, то максимум заднього розподілу відбувається в точці, яку ви могли отримати, вирішивши задачу мінімальними квадратними розмірами.
Перше зауважте, що медіана мінімізує норму L1 (див. Тут або тут, щоб дізнатися більше про L1 та L2)
при цьому середнє значення мінімізує L2
Тепер нагадаємо, що параметр нормальних розподілів можна оцінити, використовуючи середнє значення вибірки , тоді як оцінка MLE для параметра розподілу Laplace є середньою. Тож використання нормального розподілу еквівалентно оптимізації норми L2 та використанню розподілу Лапласа, використанню оптимізації L1. На практиці ви можете думати про це як про те, що медіана менш чутлива до середніх, ніж середня, і те саме, використання попередньо розподіленого Лапласа розподілу вашої моделі робить вашу модель менш схильною до людей, ніж використання нормальних.µ
Hurley, WJ (2009) Індуктивний підхід до обчислення MLE для подвійного експоненціального розподілу . Журнал сучасних прикладних статистичних методів: 8 (2), стаття 25.
Для проблеми регресії з змінними (без перехоплення) ви робите OLS як
У регульованій регресії з покаранням ви виконуєте
Ми можемо рівнозначно робити (зазначити зміни знаку)
Це безпосередньо стосується байєсівського принципу Росії
або еквівалентно (за умов регулярності)
Зараз не важко зрозуміти, який експоненціальний розподіл сім'ї відповідає якому виду покарання.
Точніше кажучи:
Оптимізація вагових моделей для мінімізації функції втрат у квадраті помилок з регуляризацією L2 еквівалентна знаходженню ваг, які, швидше за все, під задньою розподілом, оціненими за правилом Байєса, з попередньою нульовою середньою незалежністю Гаусса
Доказ:
Функцію втрат, як описано вище, надавали б
Зверніть увагу, що розподіл для багатоваріантного Гаусса є
Використовуючи правило Байєса, ми маємо це
Де ми можемо розділити багатовимірний Гаассіан на продукт, оскільки коваріація є кратною матриці тотожності.
Візьміть негативну ймовірність журналу
Звичайно, ми можемо скинути константу і помножити на будь-яку кількість, не впливаючи принципово на функцію втрат. (константа нічого не робить, множення ефективно масштабує швидкість навчання. Не вплине на розташування мінімумів) Отже, ми можемо бачити, що ймовірність негативного журналу заднього розподілу є еквівалентною функцією втрат, як функція втрати регульованої квадратної помилки L2.
Цей еквівалент є загальним і має значення для будь-якої параметризованої функції ваг - не лише лінійної регресії, як здається, мається на увазі вище.
Існує дві характеристики байєсівського моделювання, які необхідно підкреслити, обговорюючи рівноважність певної оціненої максимальної ймовірності й баєсівські процедури.
D dimension
лінійної регресії випадку можеbeta
іsigma
мати явні рішення? Я читаю PRML і знаходжу рівняння (1.67) на сторінці 30 і не знаю, як його вирішити. З максимальною ймовірністю вирішуємо,beta
а потімsigma
встановлюючи градієнт до нуля. У регуляризованому найменшому квадраті, оскількиlambda
відомий параметр рекларизації , ми вирішуємоbeta
безпосередньо. Але якщо ми безпосередньо вирішити ПДЧ, що порядок вирішенняbeta
,sigma
? Чи можуть вони мати чітке рішення або ми повинні використовувати ітераційний процес?