Я деякий час намагався зрозуміти ідею кон'югованих пріорів у байєсівській статистиці, але просто не розумію. Чи може хтось пояснити цю ідею найпростішими можливими термінами, можливо, використовуючи "приклад Гаусса" як приклад?
Я деякий час намагався зрозуміти ідею кон'югованих пріорів у байєсівській статистиці, але просто не розумію. Чи може хтось пояснити цю ідею найпростішими можливими термінами, можливо, використовуючи "приклад Гаусса" як приклад?
Відповіді:
Пріоритет для параметра майже завжди матиме певну функціональну форму (пишеться, як правило, за щільністю). Скажімо, ми обмежимось однією конкретною родиною розподілів, і в цьому випадку вибір попереднього зводиться до вибору параметрів цієї родини.
Наприклад, розглянемо нормальну модель . Для простоти візьмемо також як відомо. Ця частина моделі - модель для даних - визначає функцію ймовірності.
Для завершення нашої байєсівської моделі тут нам потрібен попередній для .
Як було сказано вище, зазвичай ми можемо вказати деяку сімейство розподілу для нашого попереднього для і тоді нам залишається лише вибирати параметри цього розподілу (наприклад, часто попередня інформація може бути досить розпливчастою - як, наприклад, де ми хочемо, щоб ймовірність зосередитися - а не дуже конкретної функціональної форми, і у нас може бути достатньо свободи моделювати те, що ми хочемо, вибираючи параметри - скажімо, щоб відповідати попередньому середньому та відхиленню).
Якщо виявиться, що заднє для походить від ж сім'ї, що і попередня, тоді цей пріор називається "кон'югатом".
(Завдяки чому воно виявляється поєднаним, це спосіб, який він поєднується з вірогідністю)
Тож у цьому випадку візьмемо гауссова пріоритет для (скажімо ). Якщо ми це зробимо, ми побачимо, що заднє для також гауссова. Отже, пріоритет Гаусса був кон'югатом до нашої моделі вище.
Це все, що є насправді - якщо задня частина є з тієї ж сім'ї, що і попередня, це споріднене пріор.
У простих випадках ви можете визначити кон'югат попередньо шляхом перевірки ймовірності. Наприклад, розглянемо біноміальну ймовірність; скидаючи константи, це виглядає як бета-щільність у ; а через те, як сили p і ( 1 - p ) поєднуються, він помножиться на бета до того, як також дасть добуток потужностей p і ( 1 - p ) ... так що ми можемо відразу зрозуміти, що ймовірність того, що бета буде кон'югатом до п у ймовірності бінома.
У випадку з Гауссом найпростіше побачити, що це станеться, враховуючи щільність журналу та ймовірність журналу; ймовірність log буде квадратичною в а сума двох квадратичних - квадратичною, тому квадратична log-пріоритет + квадратична ймовірність log дає квадратичну задню частину (кожен із коефіцієнтів терміну найвищого порядку буде, звичайно, від'ємним).
Якщо ваша модель належить до експоненціального сімейства , тобто якщо щільність розподілу має вигляд
Вибір домінуючої міри визначальний для родини пріорів. Якщо, наприклад, хтось стикається з середньою середньою ймовірністю нормальної величини на як у відповіді Glen_b , вибір вибору міри Лебега як домінуючої міри призводить до сполучення нормальних пріорів. Якщо замість цього вибирати як домінуючу міру, то кон'юговані пріори знаходяться в сімействі розподілів з щільністю
Поза цією експоненціальною сімейною обстановкою не існує нетривіального сімейства розподілів із фіксованою підтримкою, яка дозволяє поєднувати пріори. Це наслідок леми Дармуа-Пітмана-Коопмана .
Мені подобається використовувати поняття "ядро" розподілу. Тут ви залишаєте лише ті частини, які залежать від параметра. Кілька простих прикладів.
Нормальне ядро
Коли ми дивимось на функцію ймовірності, ми можемо зробити те ж саме і висловити її у "формі ядра". Наприклад, з даними про iid
For some constant and some function . If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood.
If we take the normal likelihood with unit variance, the above looks like
where and and
This likelihood function has the same kernel as the normal distribution for , so a conjugate prior for this likelihood is also the normal distribution.
In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.
For a given distribution family of the likelihood (e.g. Bernoulli),
if the prior is of the same distribution family as the posterior (e.g. Beta),
then and are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.
Note: