Ніжчий підхід до байєсівської статистики

Нещодавно я почав читати «Вступ до байєсівської статистики» 2-го видання Bolstad. У мене був клас вступної статистики, який охоплював в основному статистичні тести і я майже через клас регресійного аналізу. Які ще книги я можу використати, щоб доповнити своє розуміння цієї?

Я проробив це на перших 100-125 сторінках добре. Після цього книга починає розмову про тестування гіпотез, про що я дуже рада висвітлювати, але пару речей мене кидають:

Використання функцій щільності ймовірності в обчисленнях. Іншими словами, як оцінювати такі рівняння.
Це все речення: "Припустимо, ми використовуємо бета (1,1) до pi. Тоді, якщо y = 8, задня щільність - бета (9,3). Задня ймовірність нульової гіпотези - це ..." Я вважаю бета (1,1) відноситься до PDF, де середнє значення дорівнює 1, а stdev - 1? Я не розумію, як це зміниться на бета (9,3) як функцію задньої щільності.

Я розумію, як "пріори" проти "плакатів" і розумію, як застосувати їх за допомогою таблиці вручну. Я розумію (я думаю!), Що pi являє собою передбачувану пропорцію чи ймовірність населення.

Я не розумію, як це з'єднати разом із даними, до яких я б натрапляв щодня і отримував результати.

hypothesis-testing bayesian

— Джастін Бозоньє
джерело

Параметр

π

$\pi$ з'являється з контексту як імовірність популяції біноміальної моделі. У цьому випадку бета-розподіл є кон'югатом, який є попереднім для біноміальної вірогідності з відомими

n

$n$ та невідомими

π

$\pi$ . Однак параметри бета-розподілу не є середнім і стандартним відхиленням, як це стосується нормального розподілу. Перегляньте сторінку Вікіпедії, щоб побачити формулу середнього значення та дисперсії бета-випадкової змінної з точки зору параметрів бета-розподілу.

— caburke

Дякую! Кон'югат попередній - це ще не знайомий мені термін. Де я можу дізнатися більше про це на вступному рівні?

— Джастін Бозоньє

Можливо, вас зацікавить більш практичний текст, чи бачили ви байєсівські методи для хакерів? (Розкриття - я автор-автор) Спробуйте пошукати його (це відкритий і безкоштовний).

— Cam.Davidson.Pilon

@JustinBozonier Це посилання stats.stackexchange.com/questions/66018/… дає пояснення різним термінам, які люди використовують для опису пріорів, у тому числі споріднених пріорів.

— Sycorax повідомляє про відновлення Моніки

@ Cam.Davidson.Pilon Дякую за це! Оновлення переконань лише у графіках на цій сторінці допомагає мені отримати більше того, про що говорять інші: nbviewer.ipython.org/urls/raw.github.com/CamDavidsonPilon/…

— Джастін Бозоньє

Відповіді:

Використання функцій щільності ймовірності в обчисленнях. Іншими словами, як оцінювати такі рівняння.

Я думаю, ти все ще думаєш про це з точки зору частолістської думки: якщо ти шукаєш оцінку точки, задній не дасть тобі це. Якщо ви помістите PDF-файли, ви отримаєте PDF-файли. Отримати оцінку балів можна, обчисливши статистику із заднього розподілу, але я трохи до цього довідаюся.

Я розумію, як "пріори" проти "плакатів" і розумію, як застосувати їх за допомогою таблиці вручну. Я розумію (я думаю!), Що pi являє собою передбачувану пропорцію чи ймовірність населення.

- те саме, що і : вони обидва PDF-файли. просто умовно використовується для позначення того, що конкретний PDF є попередньою щільністю. $\pi(x)$ $p(x)$ $\pi$

Я підозрюю, що ви не отримуєте пріорів та позиціонерів так добре, як ви вважаєте, що ви робите, тому давайте повернемося до фундаментальної основи байєсівської статистики: Суб'єктивна ймовірність .

Мисленнєвий експеримент в суб'єктивній ймовірності

Скажімо, я представляю вам монету і запитаю вас, чи не вважаєте ви цю монету справедливою монетою чи ні. Ви чули, як багато людей говорять про несправедливі монети класу ймовірностей, але ви ніколи насправді не бачили жодної в реальному житті, тому ви відповідаєте: "Так, звичайно, я думаю, що це справедлива монета". Але той факт, що я навіть задаю вам це запитання, трохи відштовхує вас, тому, хоча ви вважаєте, що це справедливо, ви насправді не здивувались, якби не так. Набагато менше здивований, ніж якби ти знайшов цю монету в зміні кишені (бо ти вважаєш, що це все справжня валюта, і ти мені зараз не дуже довіряєш, тому що я дію підозріло).

Зараз ми проводимо кілька експериментів. Після 100 обертів монета повертає 53 голови. Ви набагато впевненіші, що це чесна монета, але ви все ще відкриті до можливості, що це не так. Різниця полягає в тому, що зараз ви були б дуже здивовані, якби ця монета виявила якусь упередженість.

Як ми можемо представити ваші попередні та задні переконання, зокрема, щодо ймовірності того, що монета покаже голову (яку ми позначимо )? У періодичній обстановці ваше попереднє переконання - ваша нульова гіпотеза - що . Після запуску експерименту ви не зможете відхилити нуль, і тому ви продовжуєте припускати, що так, монета, ймовірно, справедлива. Але як ми можемо відобразити зміни у вашій впевненості, що монета справедлива? Після експерименту ви перебуваєте в такому положенні, що можете зробити ставку на те, що монета є справедливою, але перед експериментом ви були б трепетні. $\theta$ $\theta = 0.5$

У налаштуваннях Баєса ви вкладаєте свою впевненість у пропозиції, не трактуючи ймовірності як скалярні значення, а як випадкові змінні, тобто функції. Замість того, щоб говорити ми говоримо , і тим самим інкапсулюємо нашу впевненість у дисперсії PDF. Якщо ми встановимо велику дисперсію, ми говоримо: "Я думаю, що ймовірність дорівнює 0,5, але я би не здивувався, якщо ймовірність, яку я насправді спостерігаю у світі, далека від цієї величини. Я думаю, що $\theta = 0.5$ $\theta \sim N(0.5, \sigma^2)$ $\theta= 0.5$ але, чесно кажучи, я не дуже впевнений у цьому. "Встановлюючи низьку дисперсію, ми говоримо:" Я не тільки вважаю, що ймовірність дорівнює 0,5, але я був би дуже здивований, якщо експериментація дає значення, яке не дуже близьке до . "Так, у цьому прикладі, коли ви починаєте експеримент, у вас є велика дисперсія. Після отримання даних, що підтверджують ваш попередній рівень, середнє значення попереднього залишилося незмінним, але дисперсія стала набагато вужчою. Ми впевнені, що набагато вище після запуску експерименту, ніж раніше. $\theta=0.5$ $\theta=0.5$

То як ми виконуємо розрахунки?

Ми починаємо з PDF-файлів, а закінчуємо з PDF-файлами. Коли вам потрібно повідомити про бальну оцінку, ви можете обчислити статистику на зразок середньої, медіани або режиму вашого заднього розподілу (залежно від вашої функції втрат, в яку я зараз не потрапляю. Давайте просто дотримаємось середнього). Якщо у вас є рішення закритої форми для вашого PDF, це, ймовірно, буде тривіально визначати ці значення. Якщо задня частина складна, ви можете скористатися процедурами, такими як MCMC, щоб взяти вибірку з задньої частини та отримати статистику з обраного вами вибірки.

У прикладі, коли у вас є вірогідність бета-попередньої та біноміальної, обчислення заднього зводиться до дуже чистого обчислення. Подано:

До: $\theta \sim Beta(\alpha, \beta)$
$X|\theta \sim Binomial(\theta)$

Потім заднє зменшується до:

$\theta|X \sim Beta(\alpha + \sum_{i=1}^n x_i,\, \beta + n - \sum_{i=1}^n x_i)$

Це станеться кожного разу, коли у вас є бета-версія до і біноміальної ймовірності, і причина, чому має бути очевидною в розрахунках, наданих DJE . Коли конкретна модель попередньої імовірності завжди дає задню частину, яка має такий самий вид розподілу, як і попередня, зв'язок між типами розподілів, що використовуються для попереднього і ймовірності, називається кон'югатом . Існує багато пар розподілів, які мають суміжні зв’язки, і кон'югація дуже часто використовується Байєсами для спрощення обчислень. Враховуючи особливу ймовірність, ви можете значно полегшити своє життя, вибравши попередньо сполучену форму (якщо така існує і ви можете виправдати свій вибір попереднього).

Я вважаю, що бета (1,1) відноситься до PDF, де середнє значення дорівнює 1, а stdev - 1?

У загальній параметризації нормального розподілу два параметри означають середнє та стандартне відхилення розподілу. Але саме так ми параметризуємо нормальний розподіл. Інші розподіли ймовірностей параметризуються дуже по-різному.

$Beta(\alpha, \beta)$ $\alpha$ $\beta$

\begin{aligned} X & \sim B e t a (α, β) \\ E [X] & = \frac{α}{α + β} \\ var [X] & = \frac{α β}{(α + β)^{2} (α + β + 1)} \end{aligned}

$\begin{equation} \begin{split} X &\sim Beta(\alpha, \beta) \\ \operatorname{E}[X] &= \frac{\alpha}{\alpha + \beta} \\ \operatorname{var}[X] &= \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \end{split} \end{equation}$

Як ви добре бачите, середнє значення та дисперсія не є частиною параметризації цього розподілу, але вони мають рішення закритої форми, які є простими функціями вхідних параметрів.

$Beta(1,1)$ $Uniform(0,1)$

— David Marx
джерело

The key thing your answer gave me was the realization that looking for a single value was where I was getting hung up. Once I started thinking in terms of distributions the Kruschke text and everything else began making much more sense. Thank you!

— Justin Bozonier

Бета-розподіл має форму $p(\theta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$ . Розподіл бета (1,1) має параметри $(\alpha, \beta)=(1,1)$ . (На жаль, цей вид статистичних коротких рук покладає на читача тягар, щоб знати, як параметризована конкретна модель!)

Бета-версія, що має біноміальну ймовірність (фіксовану кількість випробувань з бінарними результатами та фіксованою ймовірністю успіху / невдачі), має властивість поєднання, що дозволяє записувати задній (добуток попереднього та ймовірності) у закритому вигляді:

\begin{aligned} p (θ | y) & = \frac{p (y | θ) p (θ)}{p (y)} \\ \propto \frac{Γ (α) Γ (β)}{Γ (α + β)} θ^{α - 1} (1 - θ)^{β - 1} * (\binom{n}{y}) θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α - 1} (1 - θ)^{β - 1} * θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \\ = \frac{Γ (α + y - 1) Γ (β + n - y - 1)}{Γ (α + β + n - 1)} θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \end{aligned}

$\begin{equation} \begin{split} p(\theta|y) &= \frac{p(y|\theta)p(\theta)}{p(y)} \\ ~\\ ~\\ &\propto\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}*\binom{n}{y}\theta^y(1-\theta)^{n-y} \\ ~\\ ~\\ &\propto\theta^{\alpha-1}(1-\theta)^{\beta-1}*\theta^y(1-\theta)^{n-y} \\ ~\\ &\propto\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \\ ~\\ &=\frac{\Gamma(\alpha+y-1)\Gamma(\beta+n-y-1)}{\Gamma(\alpha+\beta+n-1)}\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \end{split} \end{equation}$

For the particular example in the text, the author is indicating that a beta(1,1) prior with data n=10 and y=8 produces a beta(1+8,1+2)=beta(9,3) posterior distribution on $\theta$ .

This closed-form expression is convenient, but by no means necessary. Multiplying probability densities can be done the same way as multiplying other mathematical expressions; the difficulties arrive since many products of densities are not as easily rewritten as the beta prior/binomial likelihood. Fortunately, this is where computers pick up the slack.

— Sycorax says Reinstate Monica
джерело

If you are looking for a gentler approach I can highly recommend the book by Kruschke which uses R to explain the core concepts. It is a very practical and hands-on approach into learning Bayesian statistics and on his website you can find all of the codes used.

Someone also recommended the text by Cam.Davidson.Pilon to me, haven't look at it yet but it can be found here.

— horseoftheyear
джерело

Спасибі! Я фактично є власником книги Крушке і просто повернувся до її перегляду і зрозумів, що це саме те, що мені потрібно зараз. Дякую за вказівник!

— Джастін Бозоньє

@JustinBozonier Я також дуже рекомендую вступ до теорії статистики (настрою) . Це забезпечує відносно високий рівень чіткості, але лише передбачає, що ви знаєте дуже базове обчислення.

— Стів П.