Бета-розподіл на гортанні монети


12

Баєзійська книга Крушке говорить про використання бета-розподілу для гортання монети,

Наприклад, якщо у нас немає попередніх знань, крім знань про те, що монета має сторону голови та хвіст, це рівнозначно раніше спостерігали одну голову та один хвіст, що відповідає a = 1 та b = 1.

Чому б жодна інформація не рівнозначна тому, що я бачив одну голову та один хвіст - 0 голів та 0 хвостів мені здається більш природним.


9
(+1) Цитата вводить в оману, оскільки пропонує читачеві прирівняти два дуже різні відчуття «спостерігати». Сенс, який використовується тут, полягає в тому, що оглянути саму монету - це означає, що ви розумієте експериментальну установку. Але висновок про те, що це означає залежить від повторної інтерпретації "спостерігати" у різному розумінні проведення експерименту двічі, протягом якого одним результатом були голови, а другий хвости. Цей логічний хитромудрий досвід - інтелектуальний коп; це лише змушує баєсовських методів здаватися довільними та логічно слизькими, що шкода. a=b=1
whuber

Цитата неправильна: немає жодного обґрунтування для пріоритету Beta (1, 1).
Ніл G

Можна так само легко стверджувати, що цінність одного спостереження - половина голови / половина хвоста.
Glen_b -Встановіть Моніку

4
Будь ласка, пам’ятайте про цільове призначення цього уривку в книзі. Це має бути простим інтуїтивним обґрунтуванням для початківців прикладних користувачів , очевидно, не математичний аргумент і, безумовно, не стверджує, що бета (1,1) є найкращим або лише невиразним попереднім. В іншому випадку в книзі я відчуваю, що скромні варіації розпливчастих пріорів не мають суттєвої різниці в задній частині, коли є помірно великий обсяг даних. (За винятком факторів Байєса, звичайно, які дуже чутливі до попереднього!) В інших працях я обговорював раніше Халдан.
Джон К. Крушке

Відповіді:


17

Цитата - це "логічна хитрість рук" (чудовий вираз!), Як зазначив @whuber у коментарях до ОП. Єдине, що ми можемо реально сказати, побачивши, що монета має голову і хвіст, - це те, що і події "голова", і "хвіст" не є неможливими. Таким чином, ми могли б відкинути дискретний поперед, який ставить всю ймовірнісну масу на "голову" або на "хвіст". Але це не призводить само по собі до єдиного попереднього питання: питання набагато тонкіше. Давайте насамперед підведемо підсумки. Ми розглядаємо модель бета-біномінальної сполученої моделі для баєсівського висновку про ймовірність голів монети, задану незалежними та однаково розподіленими (умовно на ) киданнями монети.θnθp(θ|x)коли ми спостерігаємо голів у кидках:xn

p(θ|x)=Beta(x+α,nx+β)

ми можемо сказати, що та грають ролі "попередньої кількості голів" і "попередньої кількості хвостів" (псевдотриали), а може бути інтерпретована як ефективний розмір вибірки. Ми також могли б дійти до цієї інтерпретації, використовуючи добре відомий вираз заднього середнього значення як середньозважене значення попереднього середнього значення а середнє значення вибірки .αβα+βαα+βxn

Дивлячись на , ми можемо зробити два міркування:p(θ|x)

  1. оскільки ми не маємо попередніх знань про (максимальне незнання), ми інтуїтивно очікуємо, що ефективний розмір вибірки буде "малим". Якби вона була великою, тоді попереднє включало б досить багато знань. Інший спосіб бачити це - зазначити, що якщо і "малі" щодо і , задня ймовірність не буде сильно залежати від нашої попередньої, тому що і . Ми очікуємо, що пріоритет, який не містить багато знань, повинен швидко стати неактуальним у світлі деяких даних.θα+βαβxnxx+αxnx+βnx
  2. Крім того, оскільки є попереднім значенням, і у нас немає попередніх знань про розподіл , ми очікуємо, що . Це аргумент симетрії - якщо ми не знаємо нічого кращого, ми апріорі не очікували, що розподіл перекошений у бік 0 або до 1. Розподіл бета-версіїμprior=αα+βθμprior=0.5

    f(θ|α,β)=Γ(α+β)Γ(α)+Γ(β)θα1(1θ)β1

    Цей вираз є симетричним лише навколо якщо .θ=0.5α=β

З цих двох причин, незалежно від того, що раніше (належить до родини Beta - пам’ятайте, поєднана модель!), Яку ми вирішимо використовувати, ми інтуїтивно очікуємо, що і "малі". Ми можемо бачити, що всі три загальноприйняті неінформативні пріори для бета-біноміальної моделі поділяють ці ознаки, але крім них вони зовсім інші. І це очевидно: жодне попереднє знання чи "максимальне незнання" не є науковим визначенням, тому який тип попереднього виражає "максимальне незнання", тобто те, що є неінформативним попереднім, залежить від того, що ви насправді означаєте як "максимум" незнання ".α=β=cc

  1. ми можемо вибрати пріоритет, який говорить, що всі значення для є безперечними, оскільки ми не знаємо нічого кращого. Знову аргумент симетрії. Це відповідає :θα=β=1

    f(θ|1,1)=Γ(2)2Γ(1)θ0(1θ)0=1

    для , тобто рівномірну форму, яку раніше використовував Крушке. Більш формально, виписавши вираз для диференціальної ентропії розподілу бета-версії, можна побачити, що воно максимізоване, коли . Тепер ентропія часто трактується як міра "кількості інформації", яку здійснює розподіл: вища ентропія відповідає меншій кількості інформації. Таким чином, ви можете використовувати цей принцип максимальної ентропії, щоб сказати, що всередині сімейства бета-версії, попередня, яка містить менше інформації (максимальне незнання), є цією рівною формою.θ[0,1]α=β=1

  2. Ви можете вибрати іншу точку зору, ту, яку використовує ОП, і сказати, що жодна інформація не відповідає тому, що не бачив ні голови, ні хвоста, тобто,

    α=β=0π(θ)θ1(1θ)1

    Попередження, яке ми отримаємо таким чином, називається попереднім Халданом . Функція має невелику проблему - інтеграл над є нескінченним, тобто незалежно від того, яка нормалізуюча константа не може бути перетворений у належний pdf. Власне, пріоритет Халдана є належним pmf , який ставить вірогідність 0,5 на , 0,5 на та 0 ймовірність на всі інші значення для . Однак не будемо захоплюватися - для неперервного параметра пріори, які не відповідають правильному pdf, називаються неправильними пріоріямиθ1(1θ)1I=[0,1]θ=0θ=1θθ. Оскільки, як зазначалося раніше, все, що має значення для байєсівського висновку, - це задній розподіл, допустимі неправильні пріори, якщо правильний задній розподіл. У випадку попереднього Haldane, ми можемо довести, що задній pdf є правильним, якщо наш зразок містить хоча б один успіх та один збій. Таким чином, ми можемо використовувати Халдан до того часу, коли спостерігаємо хоча б одну голову та один хвіст.

    Є ще один сенс, в якому попередній Haldane можна вважати неінформативним: середнє значення заднього розподілу тепер , тобто частота вибірки голів, яка є частотою МЛЕ оцінки для біноміальної моделі проблеми монети. Також достовірні інтервали для відповідають інтервалам довіри Wald. Оскільки в частолістських методах не вказано попереднього, можна сказати, що попередній час Халдана є неінформативним або відповідає нульовим попереднім знанням, тому що це призводить до "того ж" висновку, який робив би частоліст.α+xα+β+n=xnθθ

  3. Нарешті, ви можете використати пріоритет, який не залежить від параметризації проблеми, тобто попереднього Джеффріса, який для бета-біноміальної моделі відповідає

    α=β=12π(θ)θ12(1θ)12

    таким чином, з ефективним розміром вибірки 1. Попередня Джефріса має перевагу в тому, що вона є інваріантною при репараметризації простору параметрів. Наприклад, рівномірний попередній призначає однакову ймовірність усім значенням , ймовірність події "head". Однак ви можете вирішити параметризувати цю модель з точки зору log-odds події "head", а не . Що таке попереднє, що виражає "максимальну незнання" з точки зору логічних коефіцієнтів, тобто те, що говорить про те, що всі можливі коефіцієнти журналу для "голови" подій є безперечними? Це попередня Халдана, як показано у цій (злегка викривленій) відповідіθθλ=log(θ1θ)θ. Натомість Джеффрі інваріантний при всіх змінах метрики. Джеффріс заявив, що пріоритет, який не має цього властивості, певним чином є інформативним, оскільки містить інформацію про показник, який ви використовували для параметризації проблеми. Його попереднього немає.

Підводячи підсумок, у бета-біноміальній моделі існує не один однозначний вибір неінформативного попереднього. Що ви обираєте, залежить від того, що ви маєте на увазі як нульові попередні знання, а також від цілей вашого аналізу.


0

Це явно неправильно. Спостереження за 1 головою та 1 хвостом означає, що (неможливо мати монету з усіма головами) і (неможливо мати монету з усіма хвостами). Рівномірний розподіл не відповідає цьому. Що відповідає - це бета (2,2). З рішення Байєса до проблеми монети-перевертання з Лапласом (тобто рівномірним), що передує , задня ймовірність дорівнює .p(θ=0)=0θ p ( θ ) = B e t a ( h + 1 , ( N - h ) + 1 )p(θ=1)=0θp(θ)=Beta(h+1,(Nh)+1)


Мені важко зрозуміти вашу відповідь.
Майкл Р. Черник

Ваш висновок про те, що "рівномірний розподіл не відповідає цьому" є неправильним. Він плутає щільність (що саме мається на увазі під " ") з вірогідністю . (Безперервний) рівномірний розподіл призначає нульову ймовірність будь-якій атомній події, такі як або . θ = 0 θ = 1pθ=0θ=1
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.