Мотивація алгоритму максимізації очікування


20

У підході до алгоритму ЕМ ми використовуємо нерівність Дженсена, щоб дійти до

logp(x|θ)logp(z,x|θ)p(z|x,θ(k))dzlogp(z|x,θ)p(z|x,θ(k))dz

і визначимо через θ ( k + 1 ) = arg max θ log p ( z , x | θ ) p ( z | x , θ ( k ) ) d zθ(k+1)

θ(k+1)=argmaxθlogp(z,x|θ)p(z|x,θ(k))dz

Все, що я читаю, про ЕМ просто збиває, але я завжди відчував себе непросто, не маючи пояснення, чому алгоритм ЕМ виникає природно. Я розумію, що правдоподібність як правило, має справу з додаванням замість множення, але поява у визначенні мені здається немотивованим. Чому слід враховувати а не інші монотонні функції? З різних причин я підозрюю, що «сенс» або «мотивація», що стоїть за максимізацією очікування, має якесь пояснення з точки зору теорії інформації та достатньої статистики. Якби існувало таке пояснення, воно було б набагато задоволенням, ніж просто абстрактний алгоритм.журналу θ ( k + 1 ) журналloglogθ(k+1)log


3
Що таке алгоритм максимізації очікування? , Nature Biotechnology 26 : 897–899 (2008) має гарну картину, яка ілюструє, як працює алгоритм.
chl

@chl: Я бачив цю статтю. Я запитую те, що зауважте, що ніде не пояснено, чому підхід без реєстрації не може працювати
user782220

Відповіді:


10

Алгоритм ЕМ має різні інтерпретації і може виникати в різних формах у різних програмах.

Все починається з функції ймовірності , або рівнозначно, з функцією log -правдоподібності log p ( x | θ ), яку ми хотіли б максимально використовувати. (Ми зазвичай використовуємо логарифм, оскільки він спрощує обчислення. Він є суто монотонним, увігнутим і log ( a b ) = log a + log b .) В ідеальному світі значення p залежить лише від параметра моделі θ , тому ми можемо шукати через простір θ і знаходити той, який максимізуєp(x|θ)logp(x|θ)log(ab)=loga+logbp θθ .p

Однак у багатьох цікавих реальних програмах справи складніші, тому що спостерігаються не всі змінні. Так, ми можемо безпосередньо спостерігати , але деякі інші змінні z не помічені. Через відсутніх змінних z ми опиняємось у ситуації курячого яйця: без z ми не можемо оцінити параметр θ, а без θ не можемо зробити висновок про значення z .хz zzθθz

Саме тут вступає в дію алгоритм ЕМ. Почнемо з початкової здогадки параметрів моделі та отримуємо очікувані значення відсутніх змінних z (тобто, крок Е). Коли ми маємо значення z , ми можемо максимально збільшити ймовірність wrt параметрів θ (тобто, крок M, що відповідає рівнянню arg max у постановці задачі). За допомогою цього θ ми можемо отримати нові очікувані значення z (ще один крок E), і так далі. Іншим словом, на кожному кроці ми припускаємо одне з обох, z і θθzzθargmaxθzzθ, відомий. Ми повторюємо цей ітераційний процес, поки ймовірність більше не може бути збільшена.

Це алгоритм ЕМ в двох словах. Загальновідомо, що ймовірність ніколи не знизиться під час цього ітеративного ЕМ-процесу. Але майте на увазі, що алгоритм ЕМ не гарантує глобального оптимуму. Тобто, це може закінчитися локальним оптимумом функції ймовірності.

Поява в рівнянні θ ( k + 1 ) неминуче, оскільки тут функція, яку ви хотіли б максимально використовувати, записується як вірогідність журналу.журналθ(к+1)


Я не бачу, як це відповідає на питання.
broncoAbierto

9

Імовірність проти зручності

Як уже було сказано, вводиться з максимальною ймовірністю просто тому, що оптимізувати суми, як правило, простіше, ніж продукти. Причина, по якій ми не розглядаємо інші монотонні функції, полягає в тому, що логарифм є унікальною функцією зі властивістю перетворювати продукти на суми.log

Інший спосіб мотивації логарифму полягає в наступному: Замість того, щоб максимально збільшити ймовірність даних у нашій моделі, ми могли б рівномірно намагатися мінімізувати розбіжність Куллбека-Лейблера між розподілом даних, та розподілом моделі, p ( x θ ) ,pdata(x)p(xθ)

DKL[pdata(x)∣∣p(xθ)]=pdata(x)logpdata(x)p(xθ)dx=constpdata(x)logp(xθ)dx.

Перший член праворуч в параметрах постійний. Якщо у нас є вибірки з розподілу даних (наші точки даних), ми можемо наблизити другий член із середньою ймовірністю даних,N

pdata(x)logp(xθ)dx1Nnlogp(xnθ).

Альтернативний погляд на ЕМ

Я не впевнений, що це буде саме таке пояснення, яке ви шукаєте, але я виявив наступний погляд на максимізацію очікування набагато просвітнішим, ніж його мотивація через нерівність Дженсена (детальний опис ви можете знайти в Neal & Hinton (1998)) або в книзі PRML Кріса Бішопа, глава 9.3).

Це не важко показати

logp(xθ)=q(zx)logp(x,zθ)q(zx)dz+DKL[q(zx)∣∣p(zx,θ)]

для будь-якого . Якщо ми називаємо перший член праворуч F ( q , θ ) , це означає, що цеq(zx)F(q,θ)

F(q,θ)=q(zx)logp(x,zθ)q(zx)dz=logp(xθ)DKL[q(zx)∣∣p(zx,θ)].

Оскільки дивергенція KL завжди позитивна , є нижньою межею щодо ймовірності журналу для кожного фіксованого q . Тепер ЕМ можна розглядати як поперемінно максимізацію F відносно q і θ . Зокрема, шляхом установки д ( г | х ) = р ( г | х , & thetas ) в E-стадії, ми звести до мінімуму розбіжність KL на правій стороні , і , таким чином , максимально F .F(q,θ)qFqθq(zx)=p(zx,θ)F


Дякую за пост! Хоча в даному документі не сказано, що логарифм - це унікальна функція перетворення продуктів на суму. Він говорить, що логарифм - єдина функція, яка виконує всі три перераховані властивості одночасно .
Weiwei

@Weiwei: Правильно, але перша умова головним чином вимагає, щоб функція була незворотною. Звичайно, f (x) = 0 також передбачає f (x + y) = f (x) f (y), але це нецікавий випадок. Третя умова вимагає, щоб похідна на 1 дорівнювала 1, що справедливо лише для логарифму на основі . Відкиньте це обмеження, і ви отримаєте логарифми до різних основ, але все-таки логарифми. e
Лукас

4

Документ, який я знайшов уточненням щодо максимізації очікування, - Байєсівський K-Means як алгоритм "Максимізація-очікування" (pdf) Веллінга та Куріхари.

Припустимо, у нас є ймовірнісна модель з x спостереженнями, z прихованими випадковими змінними та загальною кількістю θ параметрів. Нам дається набір даних D і змушені (вищими силами) встановлювати p ( z , θ | D ) .p(x,z,θ)xzθDp(z,θ|D)

1. Відбір проб Гіббса

Ми можемо наблизити шляхом вибірки. Вибірка Гіббса дає p ( z , θ | D ) шляхом чергування:p(z,θ|D)p(z,θ|D)

θp(θ|z,D)zp(z|θ,D)

2. Варіаційний Байєс

Натомість ми можемо спробувати встановити розподіл і q ( z ) і мінімізувати різницю з розподілом, який ми виконуємо після p ( θ , z | D ) . Різниця між розподілами має зручну фантазійну назву, KL-розбіжність. Звести до мінімуму K L [ q ( θ ) q ( z ) | | p ( θ , z | D ) ] ми оновлюємо:q(θ)q(z)p(θ,z|D)KL[q(θ)q(z)||p(θ,z|D)]

q(θ)exp(E[logp(θ,z,D)]q(z))q(z)exp(E[logp(θ,z,D)]q(θ))

3. Очікування-Максимізація

Придумати повноцінні розподіли ймовірностей для і θ можна вважати крайніми. Чому б ми замість цього не розглянули точкову оцінку для однієї з них і не зберегли іншу приємну та нюансову. В ЕМ параметр θ встановлюється як той, який недостойний повного розподілу, і встановлюється його значення MAP (Максимум A Posteriori), θ .zθθθ

θ=argmaxθE[logp(θ,z,D)]q(z)q(z)=p(z|θ,D)

Тут насправді буде кращим позначенням: оператор argmax може повернути кілька значень. Але давайте не будемо вибирати. За порівнянні з варіаційним Байес ви бачите , що виправлення для журналу на ехре не змінює результат, так що не треба більше.θargmaxlogexp

4. Максимізація-очікування

Немає підстав ставитися до як до розпещеної дитини. Ми можемо так само добре використовувати оцінки точок z для наших прихованих змінних і дати параметри θ розкіш повного розподілу.zzθ

z=argmaxzE[logp(θ,z,D)]q(θ)q(θ)=p(θ|z,D)

Якщо наші приховані змінні є індикаторними змінними, у нас раптом існує обчислювально дешевий метод для висновку щодо кількості кластерів. Це іншими словами: вибір моделі (або автоматичне виявлення відповідності чи уявіть собі інше фантазійне ім’я).z

5. Ітераційні умовні режими

Зрозуміло, дочірнє планування приблизного висновку полягає у використанні точкових оцінок як для параметрів так і для спостережень z .θz

θ=argmaxθp(θ,z,D)z=argmaxzp(θ,z,D)

Щоб побачити, як грає Максимізація-Очікування, я дуже рекомендую статтю. На мій погляд, сила цієї статті, однак, полягає не у застосуванні значної альтернативи, а у цьому чіткому та стислому викладі наближення.k


(+1) це прекрасне резюме всіх методів.
kedarps

4

Існує корисна методика оптимізації, що лежить в основі алгоритму ЕМ. Однак зазвичай це виражається мовою теорії ймовірностей, тому важко зрозуміти, що в основі лежить метод, який не має нічого спільного з вірогідністю та очікуванням.

Розглянемо задачу максимізації (або еквівалентно log g ( x ) ) стосовно x . Якщо ви запишете вираз для g ( x ) і встановите його рівним нулю, ви часто опинитесь трансцендентним рівнянням для розв’язання. Це може бути неприємно.

g(x)=iexp(fi(x))
logg(x)xg(x)

fifi(x)xfi(x)

logg(x)=logiexp(fi(x))logexpfi

hg. And we'll make it out of linear combinations of the fi.

Let's say x0 is a guess for an optimal value. We'd like to improve this. Let's find another function h that matches g and its derivative at x0, i.e. g(x0)=h(x0) and g(x0)=h(x0). If you plot a graph of h in a small neighbourhood of x0 it's going to look similar to g.

You can show that

g(x)=ifi(x)exp(fi(x)).
We want something that matches this at x0. There's a natural choice:
h(x)=constant+ifi(x)exp(fi(x0)).
You can see they match at x=x0. We get
h(x)=ifi(x)exp(fi(x0)).
As x0 is a constant we have a simple linear combination of the fi whose derivative matches g. We just have to choose the constant in h to make g(x0)=h(x0).

So starting with x0, we form h(x) and optimise that. Because it's similar to g(x) in the neighbourhood of x0 we hope the optimum of h is similar to the optimum of g. Once you have a new estimate, construct the next h and repeat.

I hope this has motivated the choice of h. This is exactly the procedure that takes place in EM.

But there's one more important point. Using Jensen's inequality you can show that h(x)g(x). This means that when you optimise h(x) you always get an x that makes g bigger compared to g(x0). So even though h was motivated by its local similarity to g, it's safe to globally maximise h at each iteration. The hope I mentioned above isn't required.

This also gives a clue to when to use EM: when linear combinations of the arguments to the exp function are easier to optimise. For example when they're quadratic - as happens when working with mixtures of Gaussians. This is particularly relevant to statistics where many of the standard distributions are from exponential families.


3

Як ви сказали, я не буду вникати в технічні деталі. Існує досить багато дуже приємних навчальних посібників. Один з моїх улюблених - конспекти лекцій Ендрю Нґ . Погляньте також на посилання тут .

  1. ЕМ природно мотивовано в моделях сумішей та моделях із загалом прихованими факторами. Візьмемо для прикладу моделі гауссових сумішей (GMM). Тут ми моделюємо щільність спостережень як зважену сумуК гауссі:

    p(х)=i=1КπiN(х|мкi,Σi)
    де πi - це ймовірність того, що вибірка х був викликаний / породженим i-м компонентом, мкi - середнє значення розподілу, і Σi is the covariance matrix. The way to understand this expression is the following: each data sample has been generated/caused by one component, but we do not know which one. The approach is then to express the uncertainty in terms of probability (πi represents the chances that the ith component can account for that sample), and take the weighted sum. As a concrete example, imagine you want to cluster text documents. The idea is to assume that each document belong to a topic (science, sports,...) which you do not know beforehand!. The possible topics are hidden variables. Then you are given a bunch of documents, and by counting n-grams or whatever features you extract, you want to then find those clusters and see to which cluster each document belongs to. EM is a procedure which attacks this problem step-wise: the expectation step attempts to improve the assignments of the samples it has achieved so far. The maximization step you improve the parameters of the mixture, in other words, the form of the clusters.
  2. The point is not using monotonic functions but convex functions. And the reason is the Jensen's inequality which ensures that the estimates of the EM algorithm will improve at every step.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.