Оновлення байесів з новими даними


17

Як ми можемо обчислити задню частину з попередньою N ~ (a, b) після дотримання n точок даних? Я припускаю, що ми повинні обчислити середню вибірку та дисперсію точок даних і зробити якийсь розрахунок, який поєднує задній з попереднім, але я не зовсім впевнений, як виглядає формула комбінації.

Відповіді:


23

Основна ідея оновлення Баєса полягає в тому, що, враховуючи деякі дані X та попередній параметр, що цікавить θ , де співвідношення між даними та параметром описується за допомогою функції ймовірності , ви використовуєте теорему Байєса для отримання задніх

p(θX)p(Xθ)p(θ)

Це можна зробити послідовно, коли, побачивши першу точку даних попередня θ оновлюється до задньої θ , далі ви можете взяти другу точку даних x 2 і використовувати задню, отриману ранішеx1 θ θx2 , як вашіперед, щоб оновити його ще разт.д.θ

Дозвольте навести вам приклад. Уявіть, що ви хочете оцінити середнє нормального розподілу, а σ 2 вам відомий. У такому випадку ми можемо використовувати нормально-нормальну модель. Будемо вважати нормальним попереднє для μ з гіперпараметрами μ 0 , σ 2 0μσ2μμ0,σ02:

XμNormal(μ, σ2)μNormal(μ0, σ02)

Оскільки нормальний розподіл є кон'югатом, що є попереднім для нормального розподілу, ми маємо рішення закритої форми для оновлення попередньогоμ

E(μx)=σ2μ+σ02xσ2+σ02Var(μx)=σ2σ02σ2+σ02

На жаль, такі прості рішення закритої форми не доступні для більш складних проблем, і вам доведеться покладатися на алгоритми оптимізації (для точкових оцінок, що використовують максимально післярічний підхід) або моделювання MCMC.

Нижче ви можете побачити приклад даних:

n <- 1000
set.seed(123)
x     <- rnorm(n, 1.4, 2.7)
mu    <- numeric(n)
sigma <- numeric(n)

mu[1]    <- (10000*x[i] + (2.7^2)*0)/(10000+2.7^2)
sigma[1] <- (10000*2.7^2)/(10000+2.7^2)
for (i in 2:n) {
  mu[i]    <- ( sigma[i-1]*x[i] + (2.7^2)*mu[i-1] )/(sigma[i-1]+2.7^2)
  sigma[i] <- ( sigma[i-1]*2.7^2                  )/(sigma[i-1]+2.7^2)
}

Якщо побудувати графік результатів, ви побачите, як задній наближається до оціночного значення (його справжнє значення позначено червоною лінією) при накопиченні нових даних.

Оновлення попередніх наступних кроків у звичайній нормальній моделі

Щоб дізнатися більше, ви можете перевірити ці слайди та кон'югатний байесівський аналіз газети про розподіл Гаусса Кевіна П. Мерфі. Перевірте також, чи не стають байєсові пріори великі розміри вибірки? Ви також можете перевірити ці замітки та цей запис у блозі на предмет доступного покрокового ознайомлення з байєсівським висновком.


Дякую, це дуже корисно. Як би ми вирішили цей простий приклад (невідома дисперсія, на відміну від вашого прикладу)? Припустимо, ми маємо попередній розподіл N ~ (5, 4), а потім спостерігаємо 5 точок даних (8, 9, 10, 8, 7). Що було б задньою після цих спостережень? Спасибі заздалегідь. Цінується.
статист

@Kelly ви можете знайти приклади для випадків, коли будь-яка дисперсія невідома і середня відома, або обидва невідомі у статті Вікіпедії на суміжних пріорах та посиланнях, які я надав наприкінці своєї відповіді. Якщо і середнє значення, і дисперсія невідомі, це стає дещо складнішим.
Тім

@Kelly btw, ви можете перевірити тут, наприклад, для оцінки як і σ 2 . μσ2
Тім

4

Якщо у вас є попередній і вірогідна функція P ( x θ ), ви можете обчислити задню частину за допомогою:P(θ)P(xθ)

P(θx)=θP(xθ)P(θ)P(x)

Оскільки P(x) - просто константа нормалізації, щоб звести ймовірності до одиниці, ви можете написати:

P(θx)θP(xθ)P(θ)

Де означає "пропорційний".

Випадок сполучених пріорів (де ви часто отримуєте приємні формули закритої форми)

θP(θ)P(xθ)P(θ) P(θx) знаходяться в одній родині (наприклад, обидва гауссові).

Таблиця сполучених розподілів може допомогти побудувати певну інтуїцію (а також навести кілька повчальних прикладів для роботи над собою).


1

Це головне питання обчислення для аналізу даних Байеса. Це дійсно залежить від залучених даних та розповсюдження. Для простих випадків, коли все можна виразити у закритій формі (наприклад, зі сполученими пріорами), можна використовувати теорему Байєса безпосередньо. Найпопулярніша сім'я технік для більш складних випадків - це ланцюжок Марків Монте-Карло. Детальніше дивіться будь-який вступний підручник з аналізу даних Байеса.


Дуже дякую! Вибачте, якщо це справді нерозумне подальше запитання, але в тих простих випадках, які ви згадали, як саме ми б безпосередньо використали теорему Байєса? Чи стане розподіл, створений вибіркою, середньою та дисперсією точок даних, стане функцією вірогідності? Велике спасибі.
статист

@Kelly Знову ж, це залежить від розподілу. Див., Наприклад, en.wikipedia.org/wiki/Conjugate_prior#Example . (Якщо я відповів на ваше запитання, не забудьте прийняти мою відповідь, натиснувши прапорець під стрілками для голосування.)
Кодіолог
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.