Байєсське ласо проти звичайного ласо


24

Для програми lasso доступні різні програми для впровадження . Я знаю, що багато обговорювалося про байєсівський підхід і частолістський підхід на різних форумах. Моє запитання дуже специфічне для лассо - Які відмінності чи переваги баснійського ласо проти звичайного ласо ?

Ось два приклади реалізації в пакеті:

# just example data
set.seed(1233)
X <- scale(matrix(rnorm(30),ncol=3))[,]
set.seed(12333)
Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1)

require(monomvn) 
## Lasso regression
reg.las <- regress(X, Y, method="lasso")

## Bayesian Lasso regression
reg.blas <- blasso(X, Y)

Тож коли я повинен піти на ті чи інші методи? Або вони однакові?

Відповіді:


30

У стандартному ласо використовується штраф за регуляризацію L1 для досягнення невисокої регресії. Зауважте, що це також відоме як Основна гонитва .

У байєсівських системах вибір регулятора аналогічний вибору попереднього ваги. Якщо застосовується Гауссова пріоритет, то рішення "Максимум Постеріорі" (MAP) буде таким самим, як і для штрафу L2. Хоча це прямо не рівнозначно, попереднє значення Лапласа (яке різко досягає нуля, на відміну від Гаусса, який є рівним навколо нуля), створює той же ефект усадки, що і для штрафу L1. У цьому документі описано байєсівський Лассо. .

Насправді, коли ви розміщуєте Лаплас перед параметрами, рішення MAP повинно бути ідентичним (не просто подібним) до регуляризації з покаранням L1, а попередній Лаплас призведе до ідентичного ефекту усадки до штрафу L1. Однак через наближення в байєсівській процедурі висновку чи інші числові питання рішення можуть бути насправді не тотожними.

У більшості випадків результати, отримані обома методами, будуть дуже схожими. Залежно від методу оптимізації та використовуються наближення, стандартний ласо буде, ймовірно, більш ефективним для обчислення, ніж байєсівська версія. Байєсів автоматично виробляє оцінки інтервалу для всіх параметрів, включаючи дисперсію помилок, якщо вони потрібні.


"Якщо використовується пріоритет Гаусса, рішення максимальної ймовірності буде таким самим ....". Виділена фраза повинна читати "Максимум A Posteriori (MAP)", оскільки оцінка максимальної ймовірності просто ігнорує попередній розподіл за параметрами, що призводить до нерегульованого рішення, тоді як оцінка MAP враховує попереднє.
mefathy

1
Якщо ви розмістите Лаплас перед параметрами, рішення MAP буде ідентичним (не просто подібним) до регуляризації з покаранням L1, а попередній Laplace призведе до ідентичного ефекту усадки до штрафу L1.
mefathy

@mefathy так, ти маєш рацію з обох питань (не можу повірити, що я написав ML замість MAP ....), хоча, звичайно, на практиці YMMV. Я оновив відповідь, щоб включити обидва коментарі.
tdc

6

"Найменші квадрати" означають, що загальне рішення мінімізує суму квадратів помилок, допущених в результатах кожного окремого рівняння. Найголовніше застосування - у встановленні даних. Найкраще розміщення в значенні найменших квадратів мінімізує суму залишків у квадраті, залишковою є різниця між спостережуваною величиною та встановленою величиною, наданою моделлю. Проблеми з найменшими квадратами поділяються на дві категорії: лінійні або звичайні найменші квадрати та не- найменші лінійні квадрати, залежно від того, чи є залишки лінійними у всіх невідомих.

Байєсова лінійна регресія - це підхід до лінійної регресії, при якому статистичний аналіз проводиться в контексті байєсівського висновку. Коли в регресійній моделі є помилки, які мають нормальний розподіл, і якщо передбачається певна форма попереднього розподілу, доступні явні результати для заднього розподілу ймовірності параметрів моделі.

β2

Альтернативно регульованою версією найменших квадратів є Лассо (найменший абсолютний оператор усадки та вибору), який використовує обмеження, що , L1-норма вектора параметрів, не перевищує заданого значення . У байєсівському контексті це еквівалентно розміщенню попереднього розподілу Лапласа на нуль середнього на вектор параметра.β1

Однією з головних відмінностей між регресією Лассо та хребтом є те, що в регресії хребта, коли штраф збільшується, усі параметри знижуються, залишаючись ненульовими, тоді як у Лассо збільшення штрафу призведе до того, що все більше параметрів буде приведений до нуля.

У цій роботі порівнюється регулярне ласо з байєсівською ласо та регресією хребта (див. Рисунок 1 ).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.