Чому Laplace раніше виробляє розріджені рішення?


23

Я переглядав літературу про регуляризацію, і часто бачу абзаци, що пов'язують регулятизацію L2 з Гауссовим попереднім, а L1 з Лапласом, орієнтованим на нуль.

Я знаю, як виглядають ці пріори, але я не розумію, як це означає, наприклад, ваги в лінійній моделі. У L1, якщо я правильно розумію, ми очікуємо, що розрізнені рішення, тобто деякі ваги будуть висунуті рівно до нуля. І в L2 ми отримуємо невеликі ваги, але не нульові ваги.

Але чому це відбувається?

Будь ласка, прокоментуйте, якщо мені потрібно надати більше інформації або уточнити свій шлях мислення.



1
По-справжньому просте інтуїтивне пояснення полягає в тому, що штраф застосовується при використанні норми L2, але не при використанні норми L1. Отже, якщо ви можете зберегти модель моделі функції втрати приблизно рівною, і ви можете це зробити, зменшивши одну з двох змінних, краще зменшити змінну з високим абсолютним значенням у випадку L2, але не у випадку L1.
тестувальник

Відповіді:


21

Співвідношення розподілу Лапласа до медіани (або норми L1) виявив сам Лаплас, який встановив, що використовуючи таку попередню оцінку медіани, а не середньої, як для нормального розподілу (див. Stingler, 1986 або Wikipedia ). Це означає, що регресія з розподілом помилок Лапласа оцінює медіану (наприклад, квантильну регресію), тоді як нормальна помилка стосується оцінки OLS.

Міцні пріори, про яких ви питали, були описані також Тибширані (1996), який зауважив, що міцна регресія Лассо в байєсівській обстановці еквівалентна попередньому застосуванню Лапласа. Такий попередній для коефіцієнтів орієнтований навколо нуля (з центрированими змінними) і має широкі хвости - тому більшість коефіцієнтів регресії, оцінені за його допомогою, закінчуються рівно нульовими. Це зрозуміло, якщо уважно подивитися на малюнок нижче: розподіл Лапласа має пік навколо нуля (більша маса розподілу), тоді як нормальний розподіл дифузніше навколо нуля, тому ненульові значення мають більшу масу ймовірності. Інші можливості для надійних пріорів - це Коші або - розподіли.т

Використовуючи такі пріори, ви більше схильні закінчуватись багатьма нульовими коефіцієнтами, деякими середнього розміру та деякими великими розмірами (довгий хвіст), в той час як із Normal до цього ви отримуєте більш коефіцієнти середнього розміру, які є не зовсім нульовими, але також не так далеко від нуля.

введіть тут опис зображення

(джерело зображення Tibshirani, 1996)


Стіглер, С.М. (1986). Історія статистики: вимірювання невизначеності до 1900 року. Кембридж, Массачусетс: Belknap Press Гарвардського університетського преса.

Тібшірані, Р. (1996). Регресійна усадка та вибір через ласо. Журнал Королівського статистичного товариства. Серія B (Методологічна), 267-288.

Гельман, А., Якулін, А., Піттау, Г. М. та Су, Ю.-С. (2008). Попередньо розповсюджений за умовчанням попередній розподіл для логістичних та інших регресійних моделей. Аннали прикладної статистики, 2 (4), 1360-1383.

Нортон, RM (1984). Подвійний експоненціальний розподіл: Використання обчислення для пошуку максимального оцінювача ймовірності. Американський статистик, 38 (2): 135-136.


Ого, це дуже гарне пояснення, а також особлива подяка за пов'язане запитання, де норми регуляризації інтуїтивно пов'язані з режимом, медіанією і середніми, це дійсно багато прояснює для мене!
Дмитро Смірнов

1
@Tim, розподіл Коші має важкий хвіст, але ймовірність для нуля менша, ніж звичайна. То як же воно спонукає розріджене рішення?
Рой

5

Частий вигляд entist

В одному сенсі ми можемо вважати обидві регуляризації як "скорочення ваг" ; L2 мінімізує евклідову норму ваг, тоді як L1 мінімізує норму Манхеттена. Виходячи з цього напряму мислення, ми можемо обґрунтувати, що рівняння L1 і L2 є сферичними і ромбоподібними відповідно, тому L1 швидше призводить до розріджених рішень, як це проілюстровано в Розпізнаванні шаблонів Бішопа та машинному навчанні :

Розпізнавання образів та машинне навчання Бішопа *

Баєсівський вид 👀

Однак, щоб зрозуміти, як пріори ставляться до лінійної моделі , нам потрібно зрозуміти байєсівську інтерпретацію звичайної лінійної регресії . Блог-пошта Кетрін Бейлі - це чудове прочитання для цього. Коротше кажучи, ми припускаємо нормально розподілені помилки iid у нашій лінійній моделі

у=θХ+ϵ

Nуi,i=1,2,,NϵкN(0,σ)

у

p(у|Х,θ;ϵ)=N(θХ,σ)

Як виявилося ... Оцінювач максимальної вірогідності ідентичний мінімізації квадратичної помилки між передбачуваними та фактичними вихідними значеннями відповідно до припущення про нормальність помилки.

θ^MLE=аргмаксθжурналП(у|θ)=аргхвθi=1н(уi-θхi)2

Регуляризація як вивільнення ваг

Якби ми розмістили неоднорідний попередній ваги лінійної регресії, максимальною оцінкою післяімовірної ймовірності (ПДЧ) буде:

θ^КАРТА=аргмаксθжурналП(у|θ)+журналП(θ)

П(θ)θ

П(θ)θ

Лаплас проти Гауссана

Тепер ми маємо інший погляд на те, чому приведення Лапласа до ваг швидше викликає розрідженість: оскільки розподіл Лапласа більш концентрований навколо нуля , більш схильні наші ваги до нуля.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.