Загальний метод створення розріджених рішень полягає в оцінці MAP з нульовим середнім рівнем до того, як невідома дисперсія.
p(xi|σ2i)∼N(0,σ2i)
Якщо ви призначаєте до який має режим нульового рівня, то задній режим зазвичай рідкий. випливає з цього підходу, приймаючи експоненціальне розподіл змішування.σ2iL1
p(σ2i|λ)∼Expo(λ22)
Тоді ви отримуєте
log[p(xi|λ)]=−λ|xi|+log[λ2]
Деякі альтернативи - це узагальнений подвійний парето, наполовину каучуковий, перевернутий бета. У певному сенсі вони кращі, ніж ласо, оскільки вони не зменшують великих значень. Насправді я впевнений, що узагальнений подвійний парето може бути записаний як суміш експонентів. Тобто ми пишемо а потім розміщуємо гамму перед . Ми отримуємо:λ=λip(λi|αβ)
p(xi|αβ)=α2β(1+|xi|β)−(α+1)
Зауважте, що я включив нормалізуючі константи, оскільки вони допомагають вибрати хороші глобальні параметри. Тепер, якщо ми застосуємо обмеження діапазону, тоді у нас є більш складна проблема, оскільки нам потрібно перенормувати симплекс.
Ще одна загальна особливість штрафних санкцій, що викликають рідкість, - це те, що вони не є диференційованими за нуля. Зазвичай це тому, що ліва і права межі мають протилежний знак.
Це ґрунтується на блискучій роботі Ніколя Полсона та Джеймса Скотта щодо варіабельних представлень середніх сумішей, які вони використовують для розробки TIRLS - масового розширення мінімум квадратів до дуже великого класу комбінацій втрат-штрафу.
В якості альтернативи ви можете використовувати пріоритет, який визначений у симплексі, але має режими граничних розподілів при нулі. Одним із прикладів є розподіл диріхле з усіма параметрами від 0 до 1. Мається на увазі штраф:
−∑i=1n−1(ai−1)log(xi)−(an−1)log(1−∑i=1n−1xi)
Де . Однак вам слід бути обережними в оптимізації чисельності, оскільки пенальті має особливості. Більш надійний процес оцінки полягає у використанні заднього середнього. Хоча ви втрачаєте точну рідкість, ви отримаєте багато задніх засобів, близьких до zero.p0<ai<1