Регуляризація спорідненості для стохастичних матриць


10

Загальновідомо (наприклад, в області стиснення зондування), що норма є "спорідненою", в тому сенсі, що якщо ми мінімізуємо функціональний (для нерухомої матриці і вектора ) для досить великих \ lambda> 0 , ми, мабуть, для багатьох варіантів A , \ vec {b} і \ lambda буде мати багато точно нульових записів у результуючому \ vec {x} .L1Ab

fA,b(x)=Axb22+λx1
λ>0Abλx

Але якщо ми зведемо до мінімуму f_ {A, \ vec {b}}fA,b за умови, що записи x є додатними і дорівнюють 1 , то термін L1 не має жодного ефекту (тому що x1=1 фіат). Чи є аналогічний регуляризатор типу L1 який працює в цьому випадку, щоб заохотити, що отриманий x є рідким?


Чи можете ви детальніше зупинитися на тому, що "тоді термін L1 не має жодного ефекту (тому що ||x||1=1 за допомогою fiat)"?
Cam.Davidson.Pilon

2
@ Cam.Davidson.Pilon: xi0 і ixi=1 означає x1=1 . :)
кардинал

1
Джастін: Ще деякі деталі можуть дати кращий шанс на корисну відповідь. Ось декілька питань, які виникають одразу після прочитання вашого опису: ( 1 ) Де у всьому цьому "стохастична матриця"? Вам здається, що ви описуєте ситуацію, пов’язану зі стохастичним вектором . Це можуть бути просто окремі рядки вашої стохастичної матриці, або інша структура може стати очевидною, коли з'являться ще деталі. ( 2 ) Ви хочете, щоб самі ймовірності були рідкісними або, можливо, розрідженими? Якщо перший, чому? (Це якась випадкова хода на зваженому (розрідженому) графіку?)
кардинал

Чому ви вимагаєте, щоб записи були позитивними ? Чи слід замість цього вимагати, щоб вони не були негативними ? Також ви розглядали можливість повторної параметризації для усунення обмеження (якщо вважати, що ви маєте на увазі негативний)? Іншими словами, спробуйтеxxi=exp(wi)jexp(wj)
jrennie

1
@jrennie: З огляду на контекст, по позитивним Джастін , звичайно , мав в виду невід'ємним .
кардинал

Відповіді:


2

Загальний метод створення розріджених рішень полягає в оцінці MAP з нульовим середнім рівнем до того, як невідома дисперсія.

p(xi|σi2)N(0,σi2)

Якщо ви призначаєте до який має режим нульового рівня, то задній режим зазвичай рідкий. випливає з цього підходу, приймаючи експоненціальне розподіл змішування.σi2L1

p(σi2|λ)Expo(λ22)

Тоді ви отримуєте

log[p(xi|λ)]=λ|xi|+log[λ2]

Деякі альтернативи - це узагальнений подвійний парето, наполовину каучуковий, перевернутий бета. У певному сенсі вони кращі, ніж ласо, оскільки вони не зменшують великих значень. Насправді я впевнений, що узагальнений подвійний парето може бути записаний як суміш експонентів. Тобто ми пишемо а потім розміщуємо гамму перед . Ми отримуємо:λ=λip(λi|αβ)

p(xi|αβ)=α2β(1+|xi|β)(α+1)

Зауважте, що я включив нормалізуючі константи, оскільки вони допомагають вибрати хороші глобальні параметри. Тепер, якщо ми застосуємо обмеження діапазону, тоді у нас є більш складна проблема, оскільки нам потрібно перенормувати симплекс.

Ще одна загальна особливість штрафних санкцій, що викликають рідкість, - це те, що вони не є диференційованими за нуля. Зазвичай це тому, що ліва і права межі мають протилежний знак.

Це ґрунтується на блискучій роботі Ніколя Полсона та Джеймса Скотта щодо варіабельних представлень середніх сумішей, які вони використовують для розробки TIRLS - масового розширення мінімум квадратів до дуже великого класу комбінацій втрат-штрафу.

В якості альтернативи ви можете використовувати пріоритет, який визначений у симплексі, але має режими граничних розподілів при нулі. Одним із прикладів є розподіл диріхле з усіма параметрами від 0 до 1. Мається на увазі штраф:

i=1n1(ai1)log(xi)(an1)log(1i=1n1xi)

Де . Однак вам слід бути обережними в оптимізації чисельності, оскільки пенальті має особливості. Більш надійний процес оцінки полягає у використанні заднього середнього. Хоча ви втрачаєте точну рідкість, ви отримаєте багато задніх засобів, близьких до zero.p0<ai<1


Це здається дуже цікавою ідеєю, хоча ми не зовсім готові зрозуміти деталі! Якщо я правильно розумію, ідея полягає в тому, що попереднє значення походить від припущення, що змінні йдуть за експоненціальним розподілом приблизно 0. Отже, нам потрібен розподіл, орієнтований на 0, який краще працює для наших змінних. Але, явного переможця немає, правда? Чи є розподіли за "позитивними змінними, які дорівнюють 1"? Спасибі за вашу допомогу! L1
Джастін Соломон

Для отримання розрідженості потрібен розподіл з режимом в нуль. І розподіл диріхлету закінчується симплексним, саме такі розподіли дорівнюють 1. Інший загальний клас - це логістично-нормальний або логістичний t, де у вас є нормальний / t розподіл дляlog[xixn]
ймовірністьлогічний

Ах, Діріхлет здається досить цікавим тим, що саме на нас цікавить симплекс, як ви згадуєте! Здається, що інші два, про яких ви згадуєте, можуть ввести деяку асиметрію на , правда? Ми з моїм співробітником працюємо над енергетичною функцією, яку передбачає Діріхлет завтра, і звітуємо про це! Велике спасибі за вашу допомогу пацієнту поки що - це далеко не наше звичне поле, але якщо ми зможемо це опрацювати, результати можуть забезпечити значний крок вперед у обробці геометрії! [І, звичайно, ми надамо вам належний кредит!]xn
Джастін Соломон

1

Два варіанти:

  1. Використовуйте штраф на на . Очевидним недоліком є ​​те, що це не випукло і тому його важко оптимізувати.L0x
  2. Перепараметризуйте, і використовуйте штраф за новим (природним) параметром,. Це спонукає події бути однаково вірогідними, якщо немає поважних причин, щоб їх не було.xi=exp(wi)jexp(wj)w

Чи можете ви пояснити, як ваша репараметризація сприяє розрідженню? Це, швидше, гарантує протилежне.
кардинал

Це заохочує розрідженість у що відповідає заохоченню різних записів мати однакове значення. wx
jrennie

Так, я це розумію. Але ці значення не будуть нульовими. Якщо ми сприймаємо ОП буквально, це не допоможе і насправді «зашкодить» (у певному сенсі). Але, можливо, ОП зацікавлена ​​в обмеженості відносно якоїсь іншої основи, і в цьому випадку це була б одна з них. :)
кардинал

Ось чому я запропонував два варіанти у своїй відповіді --- я думаю, що для заохочення нулів у потрібно було б невирізане покарання . Як ви зазначали, Юстин, ймовірно, не означає буквально те, що він сказав. x
jrennie

Так, на жаль, нам потрібна нерівномірність в основі ідентичності. Тож у цьому випадку ми хотіли б, щоб якомога більше було рівним . wi
Джастін Соломон

1

Передумова питання лише частково правильна. Хоча це правда, що -норм є лише константою під обмеженням, проблема оптимізації обмежень цілком може мати розрізнене рішення.L1

Однак рішення не впливає на вибір , тому або існує розріджене рішення, чи ні. Інше питання - як насправді знайти рішення. Звичайно, може використовуватися стандартний квадратичний оптимізатор з лінійними обмеженнями, але популярні алгоритми спускання координат не можуть бути використані поза коробкою.λ

Однією з пропозицій може бути оптимізація лише за контрактом позитивності для різних 's, а потім перенормувати рішення, щоб мати -норму 1. Алгоритм спуску координат повинен, я вважаю, легко модифікуватися для обчислення рішення за позитивністю обмеження.λL1


0

Я можу придумати три методи.

  • Байєсівський метод: введення нульового середнього попереднього розподілу та використання ймовірності типу II для оцінки параметрів та гіпер параметрів.

  • Використовуйте замість як регуляризацію. Це, однак, не відрізняється. Ви можете використовувати норму високого порядку, щоб наблизити її.

  • Використовуйте .i=1logxi

Насправді перший і третій методи однакові.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.