Цитата - це "логічна хитрість рук" (чудовий вираз!), Як зазначив @whuber у коментарях до ОП. Єдине, що ми можемо реально сказати, побачивши, що монета має голову і хвіст, - це те, що і події "голова", і "хвіст" не є неможливими. Таким чином, ми могли б відкинути дискретний поперед, який ставить всю ймовірнісну масу на "голову" або на "хвіст". Але це не призводить само по собі до єдиного попереднього питання: питання набагато тонкіше. Давайте насамперед підведемо підсумки. Ми розглядаємо модель бета-біномінальної сполученої моделі для баєсівського висновку про ймовірність голів монети, задану незалежними та однаково розподіленими (умовно на ) киданнями монети.θnθp(θ|x)коли ми спостерігаємо голів у кидках:xn
p(θ|x)=Beta(x+α,n−x+β)
ми можемо сказати, що та грають ролі "попередньої кількості голів" і "попередньої кількості хвостів" (псевдотриали), а може бути інтерпретована як ефективний розмір вибірки. Ми також могли б дійти до цієї інтерпретації, використовуючи добре відомий вираз заднього середнього значення як середньозважене значення попереднього середнього значення а середнє значення вибірки .αβα+βαα+βxn
Дивлячись на , ми можемо зробити два міркування:p(θ|x)
- оскільки ми не маємо попередніх знань про (максимальне незнання), ми інтуїтивно очікуємо, що ефективний розмір вибірки буде "малим". Якби вона була великою, тоді попереднє включало б досить багато знань. Інший спосіб бачити це - зазначити, що якщо і "малі" щодо і , задня ймовірність не буде сильно залежати від нашої попередньої, тому що
і . Ми очікуємо, що пріоритет, який не містить багато знань, повинен швидко стати неактуальним у світлі деяких даних.θα+βαβxn−xx+α≈xn−x+β≈n−x
Крім того, оскільки є попереднім значенням, і у нас немає попередніх знань про розподіл
, ми очікуємо, що . Це аргумент симетрії - якщо ми не знаємо нічого кращого, ми апріорі не очікували, що розподіл перекошений у бік 0 або до 1. Розподіл бета-версіїμprior=αα+βθμprior=0.5
f(θ|α,β)=Γ(α+β)Γ(α)+Γ(β)θα−1(1−θ)β−1
Цей вираз є симетричним лише навколо якщо
.θ=0.5α=β
З цих двох причин, незалежно від того, що раніше (належить до родини Beta - пам’ятайте, поєднана модель!), Яку ми вирішимо використовувати, ми інтуїтивно очікуємо, що і "малі". Ми можемо бачити, що всі три загальноприйняті неінформативні пріори для бета-біноміальної моделі поділяють ці ознаки, але крім них вони зовсім інші. І це очевидно: жодне попереднє знання чи "максимальне незнання" не є науковим визначенням, тому який тип попереднього виражає "максимальне незнання", тобто те, що є неінформативним попереднім, залежить від того, що ви насправді означаєте як "максимум" незнання ".α=β=cc
ми можемо вибрати пріоритет, який говорить, що всі значення для є безперечними, оскільки ми не знаємо нічого кращого. Знову аргумент симетрії. Це відповідає :θα=β=1
f(θ|1,1)=Γ(2)2Γ(1)θ0(1−θ)0=1
для , тобто рівномірну форму, яку раніше використовував Крушке. Більш формально, виписавши вираз для диференціальної ентропії розподілу бета-версії, можна побачити, що воно максимізоване, коли
. Тепер ентропія часто трактується як міра "кількості інформації", яку здійснює розподіл: вища ентропія відповідає меншій кількості інформації. Таким чином, ви можете використовувати цей принцип максимальної ентропії, щоб сказати, що всередині сімейства бета-версії, попередня, яка містить менше інформації (максимальне незнання), є цією рівною формою.θ∈[0,1]α=β=1
Ви можете вибрати іншу точку зору, ту, яку використовує ОП, і сказати, що жодна інформація не відповідає тому, що не бачив ні голови, ні хвоста, тобто,
α=β=0⇒π(θ)∝θ−1(1−θ)−1
Попередження, яке ми отримаємо таким чином, називається попереднім Халданом . Функція має невелику проблему - інтеграл над є нескінченним, тобто незалежно від того, яка нормалізуюча константа не може бути перетворений у належний pdf. Власне, пріоритет Халдана є належним pmf , який ставить вірогідність 0,5 на , 0,5 на та 0 ймовірність на всі інші значення для . Однак не будемо захоплюватися - для неперервного параметра пріори, які не відповідають правильному pdf, називаються неправильними пріоріямиθ−1(1−θ)−1I=[0,1]θ=0θ=1θθ. Оскільки, як зазначалося раніше, все, що має значення для байєсівського висновку, - це задній розподіл, допустимі неправильні пріори, якщо правильний задній розподіл. У випадку попереднього Haldane, ми можемо довести, що задній pdf є правильним, якщо наш зразок містить хоча б один успіх та один збій. Таким чином, ми можемо використовувати Халдан до того часу, коли спостерігаємо хоча б одну голову та один хвіст.
Є ще один сенс, в якому попередній Haldane можна вважати неінформативним: середнє значення заднього розподілу тепер
, тобто частота вибірки голів, яка є частотою МЛЕ оцінки
для біноміальної моделі проблеми монети. Також достовірні інтервали для відповідають інтервалам довіри Wald. Оскільки в частолістських методах не вказано попереднього, можна сказати, що попередній час Халдана є неінформативним або відповідає нульовим попереднім знанням, тому що це призводить до "того ж" висновку, який робив би частоліст.α+xα+β+n=xnθθ
Нарешті, ви можете використати пріоритет, який не залежить від параметризації проблеми, тобто попереднього Джеффріса, який для бета-біноміальної моделі відповідає
α=β=12⇒π(θ)∝θ−12(1−θ)−12
таким чином, з ефективним розміром вибірки 1. Попередня Джефріса має перевагу в тому, що вона є інваріантною при репараметризації простору параметрів. Наприклад, рівномірний попередній призначає однакову ймовірність усім значенням , ймовірність події "head". Однак ви можете вирішити параметризувати цю модель з точки зору log-odds події "head", а не . Що таке попереднє, що виражає "максимальну незнання" з точки зору логічних коефіцієнтів, тобто те, що говорить про те, що всі можливі коефіцієнти журналу для "голови" подій є безперечними? Це попередня Халдана, як показано у цій (злегка викривленій) відповідіθθλ=log(θ1−θ)θ. Натомість Джеффрі інваріантний при всіх змінах метрики. Джеффріс заявив, що пріоритет, який не має цього властивості, певним чином є інформативним, оскільки містить інформацію про показник, який ви використовували для параметризації проблеми. Його попереднього немає.
Підводячи підсумок, у бета-біноміальній моделі існує не один однозначний вибір неінформативного попереднього. Що ви обираєте, залежить від того, що ви маєте на увазі як нульові попередні знання, а також від цілей вашого аналізу.