Ось приклад оцінки середнього значення за нормальними постійними даними. Перш ніж заглиблюватися безпосередньо в приклад, я хотів би переглянути деякі з математичних даних для моделей даних Normal-Normal Bayesian.θ
у1, . . . , уну= ( у1, . . . , ун)Т
у1, . .. , ун|θ ∼ N( θ , σ2)
Або як зазвичай пише Баєсій,
у1, . . . , ун| θ∼N( θ , τ)
τ= 1 / σ2τ
уi
f( уi| θ, τ) = (√τ2 π) × e x p ( - τ( уi- θ )2/ 2 )
θ^= у¯
θ
θ ∼ N( а , 1 / б )
Задній розподіл, який ми отримуємо з цієї моделі нормальних норм (після великої кількості алгебри), є ще одним нормальним розподілом.
θ | у∼ N( б)b + n τa + n τb + n τу¯, 1b + n τ)
b + n τау¯бb + n τa + n τb + n τу¯
θ | уθθ
З огляду на це, тепер ви можете використовувати будь-який приклад підручника з нормальними даними для ілюстрації цього. Я буду використовувати набір даних airquality
у межах Р. Розгляньте проблему оцінки середніх швидкостей вітру (МПГ).
> ## New York Air Quality Measurements
>
> help("airquality")
>
> ## Estimating average wind speeds
>
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>
> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
>
>
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
>
> a = 12
> b = 2
>
> ## Your posterior would be N((1/))
>
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
>
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
>
> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5% 97.5%
9.958984 10.047404
У цьому аналізі дослідник (ви) може сказати, що за даними + попередня інформація, ваша оцінка середнього вітру, використовуючи 50-й перцентиль, швидкості повинні бути 10,00324, що перевищує просто використання середнього показника за даними. Ви також отримуєте повний розподіл, з якого ви можете отримати 95% достовірний інтервал, використовуючи кванти 2,5 та 97,5.
Нижче я включаю два посилання, настійно рекомендую прочитати короткий документ Каселли. Він спеціально спрямований на емпіричні методи Байєса, але пояснює загальну байєсівську методологію для нормальних моделей.
Список літератури:
Казелла, Г. (1985). Вступ до аналізу емпіричних даних Байєса. Американський статистик, 39 (2), 83-87.
Гельман, А. (2004). Байєсівський аналіз даних (2-е вид., Тексти статистичної науки). Бока Ратон, штат Фларида: Чапман і Холл / CRC.