«Забудькуватість» пріоритету в байєсівській обстановці?


9

Загальновідомо, що оскільки у вас є більше доказів (скажімо у вигляді більших для iid прикладів), байєсівський пріоритет стає «забутим», і більшість висновків впливає на докази (або ймовірність).nn

Це легко побачити для різних конкретних випадків (наприклад, Бернуллі з бета-версією чи інші типи прикладів) - але чи є спосіб це побачити в загальному випадку з і деякий попередній ?x1,,xnp(x|μ)p(μ)

EDIT: Я здогадуюсь, він не може бути показаний у загальному випадку для жодного попереднього (наприклад, попередня точкова маса зберегла б задню точкову масу). Але, можливо, існують певні умови, при яких пріоритет забувається.

Ось такий "шлях", який я думаю про те, щоб показати щось подібне:

Припустимо, простір параметрів - , і нехай і є двома пріорами, які розміщують ненульову масу ймовірності на всіх . Отже, два задніх обчислення за кожну попередню суму до:Θp(θ)q(θ)Θ

p(θ|x1,,xn)=ip(xi|θ)p(θ)θip(xi|θ)p(θ)dθ

і

q(θ|x1,,xn)=ip(xi|θ)q(θ)θip(xi|θ)q(θ)dθ

Якщо розділити на (афіші), то ви отримаєте:pq

p(θ|x1,,xn)/q(θ|x1,,xn)=p(θ)θip(xi|θ)q(θ)dθq(θ)θip(xi|θ)p(θ)dθ

Тепер я хотів би вивчити зазначений термін, як переходить до . В ідеалі це було б до для певної яка "має сенс" чи іншої приємної поведінки, але я не можу зрозуміти, як там щось показати.n1θ


1
З деякою інтуїцією зауважте, що ймовірність масштабується з розміром вибірки, тоді як попередня не відповідає.
Макрос

@Macro, дякую, у мене теж була така інтуїція, але я не зміг просунути її далі. Дивіться мої зміни вище.
bayesianOrFrequentist

Перші кілька розділів підручника Гоша та Рамамоорті Байєсівська непараметрія чітко визначає види речей, про які ви говорите (спочатку в параметричній, потім непараметричній); він доступний через Springer онлайн безкоштовно, якщо ви перебуваєте у відповідній установі. Існує кілька способів формалізації відсутності залежності від попередньої асимптотики, але, звичайно, є кілька умов регулярності.
хлопець

Зауважте, що заднє відношення просто пропорційне попередньому співвідношенню, тому коефіцієнт ймовірності чи доказів насправді на це не впливає.
ймовірність

Відповіді:


3

Просто груба, але, сподіваємось, інтуїтивна відповідь.

  1. Подивіться на це з точки зору журнального простору: де - константа, що залежить від даних, але не від параметра, і де ваші ймовірності передбачають ідентичні спостереження. Отже, просто сконцентруйтеся на частині, яка визначає форму вашого заднього, а саме

    logP(θ|x1,,xn)=logP(θ)i=1nlogP(xi|θ)Cn
    Cn>0
    Sn=logP(θ)i=1nlogP(xi|θ)
  2. Припустимо , що існує таке , що . Це розумно для дискретних розподілів.D>0logP(θ)D

  3. Оскільки умови всі позитивні, "буде" рости (я тут пропускаю технічні характеристики). Але внесок попереднього обмежений . Отже, частка, внесена попередньою, що становить щонайбільше , монотонно зменшується з кожним додатковим спостереженням.SnDD/Sn

Суворі докази, звичайно, мають стикатися з технічними можливостями (і вони можуть бути дуже складними), але вищевказана установка - це IMHO - сама основна частина.


0

Мене дещо бентежить те, що, мабуть, означають твердження "попереднього забутого" та "більшість висновків впливає на докази". Я припускаю, що ви маєте на увазі, коли кількість даних збільшується, оцінювач (послідовність) наближається до справжнього значення параметра незалежно від нашого попереднього.

Припускаючи деякі умови регулярності форми заднього розподілу, Оцінки Байєса є послідовними та асимптотично неупередженими (див. Gelman et al, розділ 4 ). Це означає, що збільшення розміру вибірки збільшує оцінку Bayes до дійсного значення параметра. Послідовність означає, що оцінювач Bayes зближує вірогідність до істинного значення параметра, а асимптотична неупередженість означає, що, припускаючи справжнє значення параметра,θ0

E[θ^|θ0]θ0Var(θ^)p0

Конвергенція не залежить від конкретної форми попереднього, а лише від того, що задній розподіл, отриманий з попереднього та ймовірність, відповідає умовам регулярності.

Найважливіша умова регулярності, згадана в Gelman et al., Полягає в тому, що вірогідність бути безперервною функцією параметра, а справжнє значення параметра знаходиться у внутрішній частині простору параметрів. Крім того, як ви зазначали, задній повинен бути ненульовим у відкритому сусідстві з істинним значенням справжнього значення параметра. Зазвичай, ваш попередній повинен бути ненульовим для всього простору параметрів.


дякую, дуже проникливий. Я сподівався насправді на результат, який навіть не стосуватиметься "істинного" значення параметра. Тільки показуючи, що технічно, оскільки у вас є більше доказів, задній стіл, який ви збираєтеся отримати, - такий же самий, незалежно від попереднього, з якого ви починали. Я збираюся внести деякі зміни, щоб це відобразити.
bayesianOrFrequentist

@bayesianOrFrequentist Погляньте на так звану байєсівську теорему про граничну границю .
Стефан Лоран
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.