Варіативні умовиводи, дивергенція KL вимагає справжнього


12

На мій (дуже скромний) рівень розуміння варіативного висновку, намагається наблизити невідомий розподіл шляхом пошуку розподілу який оптимізує наступне:qpq

KL(p||q)=xp(x)logp(x)q(x)

Щоразу, коли я вкладаю час на розуміння варіативного висновку, я продовжую вражати цією формулою і не можу не відчути, як я пропускаю суть. Здається, мені потрібно знати p , щоб обчислити KL(p||q) . Але вся справа в тому, що я не знав цього розподілу p .

Саме цей момент мене клопоче щоразу, коли я намагаюся прочитати щось варіативне. Що я пропускаю?

Редагувати :

Я додам сюди кілька додаткових коментарів у результаті відповіді @wij, я спробую бути більш точним.

У тих випадках, які мене цікавлять, справді здається цілком розумним вважати, що наступне має місце;

p(θ|D)=p(D|θ)p(θ)p(D)p(D|θ)p(θ)

У цьому випадку я міг би знати, як має пропорційно виглядати тому що я зробив вибір моделі для p ( D | θ ) та p ( θ ) . Чи був би я тоді правильним, кажучи, що мені тоді потрібно вибрати сімейний розподіл q [скажемо гаусса], щоб тепер я міг оцінити K L ( p ( θ | D ) | | q ) . Схоже, що в цьому випадку я намагаюся помістити гаусса, близького до ненормованого p ( D | θ )pp(D|θ)p(θ)qKL(p(θ|D)||q) . Це правильно?p(D|θ)p(θ)

Якщо так, то я відчуваю, що я припускаю, що мій задній - нормальний розподіл, і я просто намагаюся знайти ймовірні значення для цього розподілу щодо розбіжності KL

Відповіді:


7

У мене таке відчуття, що ви ставитесь до як до абсолютно невідомого об'єкта. Я не думаю, що це так. Це, мабуть, те, що ви пропустили.p

Скажімо, ми спостерігаємо (iid) і хочемо зробити висновок p ( x | Y ) там, де вважаємо, що p ( y | x ) і p ( x ) для x R d задані через модель. За правилом Байєса,Y={уi}i=1нp(х|Y)p(у|х)p(х)хRг

p(x|Y)=p(x)p(Y)p(Y|x)=p(x)p(Y)i=1np(yi|x).

Перше спостереження полягає в тому, що ми знаємо щось про задній розподіл . Дано як вище. Зазвичай ми просто не знаємо його нормалізатор p ( Y ) . Якщо ймовірність p ( y | x ) дуже складна, тоді ми закінчуємо деякий складний розподіл p ( x | Y ) .p(x|Y)p(Y)p(y|x)p(x|Y)

Друга річ, яка дає змогу робити варіаційні умовиводи - це обмеження у формі, яку може приймати . Без будь-яких обмежень, аргумент min q K L ( p | | q ) був би p, який зазвичай є незламним. Як правило, передбачається , що q живе в обраному підмножині експоненціальної родини. Наприклад, це може бути сімейство повністю факторизованих гауссових розподілів, тобто q Q = { d i = 1 q i ( x i ) qargminqKL(p||q)pq . Виявляється, якщо це ваш набір обмежень, то кожен компонент q задається черезqQ={i=1dqi(xi)each qi is a one-dimensional Gaussian}q

qiдосвід(Еjiqjжурналp(х,Y)),

де Точна формула не має великого значення. Справа в тому, що приблизний q можна знайти, спираючись на знання істинного p , і припущення про форму, яку має приймати наближений q .p(х,Y)=p(х)i=1нp(уi|х).qpq

Оновлення

Далі слід відповісти на оновлену частину питання. Я щойно зрозумів, що я думав про . Я завжди буду використовувати p для справжньої кількості, а q для приблизної. У варіативному умовиводі або варіаційному Байсі q задається числомКL(q||p(х|Y))pqq

q=аргхвqQКL(q||p(х|Y)).

З набором обмежень як зазначено вище, рішення є тим, яке було задано раніше. Тепер якщо ви задумаєтесьQ

q=аргхвqQКL(p(х|Y)||q),

для визначеного як підмножина експоненціальної родини, тоді цей висновок називається поширенням очікування (EP). Рішення для q в цьому випадку є таким, що його моменти відповідають рівню p ( x | Y ) .Qqp(х|Y)

q


Я не можу з цим посперечатися. Я думаю, що більшість пояснень, включаючи мій власний блиск щодо цього.
Peadar Coyle
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.