Прості реальні приклади для навчання байесівської статистики?


10

Я хотів би знайти кілька «реальних прикладів» для навчання байєсівської статистики. Байєська статистика дозволяє офіційно включити попередні знання в аналіз. Я хотів би надати студентам декілька простих реальних прикладів дослідників, що включають попередні знання в свій аналіз, щоб студенти могли краще зрозуміти мотивацію, чому можна, в першу чергу, використовувати байєсівські статистичні дані.

Чи знаєте ви прості прості приклади реального світу, такі як оцінка середньої чисельності, пропорції, регресу тощо, де дослідники формально включають попередню інформацію? Я розумію, що байєси теж можуть використовувати "неінформативні" пріори, але мене особливо цікавлять реальні приклади, де використовуються інформативні пріори (тобто реальна попередня інформація).


Я думаю, що IQ - досить хороший приклад.
hejseb

Відповідь не суворо, але коли три рази перевернути монету, а голова підійде два рази, жоден студент не повірить, що голова була вдвічі більшою, ніж хвости. Це досить переконливо, хоча, звичайно, не справжнє дослідження.
Бернхард

1
Ви можете перевірити цю відповідь, написану справді вашими: stats.stackexchange.com/a/134385/61496
Yair Daon

Чи, можливо, ви плутаєте правило Байєса, яке можна застосувати за частою ймовірністю / оцінкою, та баєсівську статистику, де "ймовірність" є підсумком переконань?
АдамО

Відповіді:


6

Теорія пошуку Байесів - цікаве реальне застосування байєсівської статистики, яка багато разів застосовується для пошуку втрачених суден у морі. Для початку карта поділяється на квадрати. Кожному квадрату присвоюється попередня ймовірність вмісту загубленого судна, виходячи з останнього відомого положення, заголовка, відсутнього часу, струмів тощо. Крім того, кожному квадрату присвоюється умовна ймовірність знайти судно, якщо воно фактично знаходиться в цьому квадраті, виходячи з такі речі, як глибина води. Ці розподіли поєднуються, щоб визначити пріоритетні квадрати карт, які мають найбільшу ймовірність отримати позитивний результат - це не обов’язково найімовірніше місце для судна, але найімовірніше місце фактичного пошуку корабля.


1
Приємно, це такі програми, які описані в розважальній книзі «Теорія, яка не вмре: як правило Байєса зламало кодекс енігми, загнали російські підводні човни та виникли тріумфатори через два століття суперечок . Також Тьюрінг використовував подібні міркування, щоб зламати загадку.
jpmuc

Імовірнісний, але чи баєсийський?
Андрій

5

Я думаю, що оцінка виробництва чи кількості населення за серійними номерами цікава, якщо традиційний пояснювальний приклад. Тут ви намагаєтеся максимум дискретного рівномірного розподілу. Залежно від вашого вибору раніше, максимальна ймовірність та байєсівські оцінки будуть відрізнятися досить прозорим способом.

Мабуть, найвідоміший приклад - це оцінка рівня виробництва німецьких танків під час другої світової війни з діапазонів серійних номерів танків та виробничих кодів, зроблених у частістській обстановці (Ruggles and Brodie, 1947). Альтернативний аналіз з байєсівської точки зору з інформативними пріорами був зроблений (Downey, 2013), а з неправильно неінформативними пріорами - (Höhle and Held, 2004). Робота (Höhle and Held, 2004) також містить в літературі ще багато посилань на попереднє звернення, і на цьому сайті також обговорюється ця проблема.

Джерела:

Глава 3, Дауні, Аллен. Подумайте, Байєс: Баєсова статистика в Python. "O'Reilly Media, Inc.", 2013.

Вікіпедія

Кільця, Р .; Броді, Х. (1947). "Емпіричний підхід до економічної розвідки у Другій світовій війні". Журнал Американської статистичної асоціації. 42 (237): 72.

Геле, Майкл та Леонгард Хелд. Байєсова оцінка чисельності популяції. № 499. Доповідь для обговорення // Sonderforschungsbereich 386 der Ludwig-Maximilians-Universität München, 2006.


3

У «Cressie & Wickle Statistics» є приємна історія для просторово-часових даних , Wiley, про (байєсівський) пошук американського Скорпіона, підводного човна, який був загублений в 1968 році. Ми розповідаємо цю історію нашим студентам і змусимо їх виконати ( спрощений) пошук за допомогою тренажера .

Подібні приклади можна побудувати навколо розповіді про втрачений політ MH370; ви можете поглянути на Дейві та ін., Байєсові методи пошуку MH370 , Springer-Verlag.


1

Ось приклад оцінки середнього значення за нормальними постійними даними. Перш ніж заглиблюватися безпосередньо в приклад, я хотів би переглянути деякі з математичних даних для моделей даних Normal-Normal Bayesian.θ

у1,...,уну=(у1,...,ун)Т

у1,...,ун|θN(θ,σ2)

Або як зазвичай пише Баєсій,

у1,...,ун|θN(θ,τ)

τ=1/σ2τ

уi

f(уi|θ,τ)=(τ2π)×ехp(-τ(уi-θ)2/2)

θ^=у¯

θ

θN(а,1/б)

Задній розподіл, який ми отримуємо з цієї моделі нормальних норм (після великої кількості алгебри), є ще одним нормальним розподілом.

θ|уN(бб+нτа+нτб+нτу¯,1б+нτ)

б+нτау¯бб+нτа+нτб+нτу¯

θ|уθθ

З огляду на це, тепер ви можете використовувати будь-який приклад підручника з нормальними даними для ілюстрації цього. Я буду використовувати набір даних airqualityу межах Р. Розгляньте проблему оцінки середніх швидкостей вітру (МПГ).

> ## New York Air Quality Measurements
> 
> help("airquality")
> 
> ## Estimating average wind speeds
> 
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>

введіть тут опис зображення

> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
> 
> 
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
> 
> a = 12
> b = 2
> 
> ## Your posterior would be N((1/))
> 
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
> 
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
> 

введіть тут опис зображення

> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5%     97.5% 
9.958984 10.047404 

У цьому аналізі дослідник (ви) може сказати, що за даними + попередня інформація, ваша оцінка середнього вітру, використовуючи 50-й перцентиль, швидкості повинні бути 10,00324, що перевищує просто використання середнього показника за даними. Ви також отримуєте повний розподіл, з якого ви можете отримати 95% достовірний інтервал, використовуючи кванти 2,5 та 97,5.

Нижче я включаю два посилання, настійно рекомендую прочитати короткий документ Каселли. Він спеціально спрямований на емпіричні методи Байєса, але пояснює загальну байєсівську методологію для нормальних моделей.

Список літератури:

  1. Казелла, Г. (1985). Вступ до аналізу емпіричних даних Байєса. Американський статистик, 39 (2), 83-87.

  2. Гельман, А. (2004). Байєсівський аналіз даних (2-е вид., Тексти статистичної науки). Бока Ратон, штат Фларида: Чапман і Холл / CRC.


1

Область дослідження, де я вважаю, що байєсівські методи абсолютно необхідні, - це оптимальне проектування.

хβх

хβββх

  • н=0β^

  • β^

  • β=1β^=5хβ=5х

  • β

хх

хβ

βх

х


1

Я думав над цим питанням останнім часом, і, думаю, маю приклад, коли байєсийці мають сенс, із застосуванням попередньої ймовірності: співвідношення ймовірності клінічного тесту.

Прикладом може бути такий: термін дії сечі в умовах щоденної практики (Family Practice 2003; 20: 410-2). Ідея полягає в тому, щоб побачити, який позитивний результат спринцювання сечі означає діагностика інфекції сечі. Коефіцієнт ймовірності позитивного результату:

LR(+)=тест+|Н+тест+|Н-=Sенсiбiлiту1-сpеcificiту
Н+Н-

ОR(+|тест+)=LR(+)×ОR(+)
ОRОR(+|тест+)ОR(+)

LR(+)=12.2LR(-)=0,29

p+=2/3p+|тест+=0,96p+|тест-=0,37

Тут тест хороший для виявлення інфекції, але не так добре, щоб відкинути інфекцію.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.