Перед згладжуванням Лапласа та Діріхле


11

У статті вікіпедії про згладжування Лапласа (або присадки згладжування) сказано, що з байесівської точки зору,

це відповідає очікуваному значенню заднього розподілу, використовуючи симетричний розподіл Діріхле з параметром як попередній.α

Мені спантеличено, як це насправді так. Може хтось допоможе мені зрозуміти, наскільки ці дві речі рівнозначні?

Дякую!

Відповіді:


10

Звичайно. Це, по суті, зауваження, що розподіл Діріхле є кон'югатом, який є попереднім для мультиноміального розподілу. Це означає, що вони мають однакову функціональну форму. У статті йдеться про це, але я лише наголошу, що це випливає з моделі багаточленної вибірки. Отже, переходячи до цього ...

Спостереження про задньому, так що давайте ввести деякі дані, , які відліки різних елементів. Ми спостерігаємо вибірки всього. Будемо вважати, що виведено з невідомого розподілу (на якому ми будемо ставити до -simplex).K N = K i = 1 x i x π D i r ( α ) KxKN=i=1KxixπDir(α)K

Задня ймовірність заданих та даних дорівнюєα xπαx

p(π|x,α)=p(x|π)p(π|α)

Ймовірність, , є багаточленним розподілом. Тепер випишемо у форматі pdf:p(x|π)

p(x|π)=N!x1!xk!π1x1πkxk

і

p(π|α)=1B(α)i=1Kπiα1

де . Помноживши, ми знаходимо це,B(α)=Γ(α)KΓ(Kα)

p(π|α,x)=p(x|π)p(π|α)i=1Kπixi+α1.

Іншими словами, задній - також Діріхлет. Питання було про задню середню. Оскільки заднім є Діріхлет, ми можемо застосувати формулу для середнього значення Діріхле, щоб знайти це,

E[πi|α,x]=xi+αN+Kα.

Сподіваюся, це допомагає!


p(π|α,x)=p(x|π)p(π|α)/p(x|α), тож чи не помиляється сказати, щоВони пропорційні по відношенню до , але я думаю, що рівність не відповідає дійсності. p(π|α,x)=p(x|π)p(π|α)?π
michal

Я довго плутався з цього приводу і хочу поділитися своєю реалізацією. Ці люди, що мотивують згладжування Лапласа Діріхле, використовують Заднє Середнє, а не ПДЧ. Для простоти припустімо бета-розподіл (найпростіший випадок Діріхле) Заднє середнє значення тоді як MAP - . Тож якщо хтось каже, що відповідає додаванню 1 до чисельника та 2 до знаменника, це тому, що вони використовують середнє значення. α+nsuccessα+β+nsuccess+nfailuresα+nsuccess1α+β+nsuccess+nfailures2α=β=1
RMurphy

0

Як бічне зауваження, я також хотів би додати ще одну точку до вищенаведеної деривації, яка насправді не стосується головного питання. Однак, розмовляючи про пріорів Діріхле щодо багаточленного розподілу, я вважав, що варто згадати, що б це було формою вірогідності, якщо ми будемо приймати ймовірності як неприємні змінні.

Як правильно вказує sydeulissie, пропорційний . Тепер тут я хотів би обчислити .p(π|α,x)i=1Kπixi+α1p(x|α)

p(x|α)=i=1Kp(x|πi,α)p(π|α)dπ1dπ2...dπK

Використовуючи цілісну ідентичність для функцій гамми, ми маємо:

p(x|α)=Γ(Kα)Γ(N+Kα)i=1KΓ(xi+α)Γ(α)

Вищенаведене виведення ймовірності категоричних даних пропонує більш надійний спосіб поводження з цими даними для випадків, коли розмір вибірки не настільки великий.N

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.