Що таке "неінформативний поперед"? Чи можемо ми колись мати таку, яка справді не має інформації?


73

Натхненний коментарем до цього питання :

Що ми вважаємо "неінформативним" у попередньому - а яка інформація все ще міститься в передбачуваному неінформативному попередньому?

Я, як правило, бачу попередній аналіз, коли це або частофілістський аналіз, який намагається запозичити деякі приємні деталі з байєсівського аналізу (будь-яка легша інтерпретація аж до "його гарячої речі"), зазначений попередній рівномірний розподіл по межах вимірювання ефекту, зосереджені на 0. Але навіть, стверджують в форму до попереднього - це як раз трапляється бути плоскими.

Чи є кращий неінформативний до використання?


2
Можливо, вам сподобається поглянути на так званий Принцип максимальної ентропії . Мені не подобається, що це повною мірою відповідати - стаття у Вікіпедії здається гарною якістю. Я впевнений, що деякі доповідачі розширять це набагато краще, ніж я б.
Елвіс

Відповіді:


93

[Попередження: як член картки секції Об'єктивного Байєса ISBA , мої погляди не є репрезентаційними для всіх баєсівських статистиків!, Навпаки ...]

Підсумовуючи це, не існує такого поняття, як попереднє, з "справді немає інформації".

Дійсно, «неінформативний» пріоритет, на жаль, є неправильним. Будь-який попередній розповсюдження містить деяку специфікацію, яка схожа на деяку кількість інформації. Навіть (або особливо) рівномірний попередній. Дійсно, рівномірний пріоритет є лише рівним для однієї заданої параметризації задачі. Якщо одна зміниться на іншу параметризацію (навіть обмежену), зміна якобіанської змінної вводиться в картину та щільність, а попередня вже не є плоскою.

Як вказував Елвіс, максимальна ентропія - це один підхід, який відстоюється для вибору так званих "неінформативних" пріорів. Однак він вимагає (a) достатньої інформації про деякі моменти попереднього розподілу для визначення обмежень які ведуть до MaxEnt попереднього і (b) попередній вибір опорного заходу [у безперервних налаштуваннях], вибір, який повертає дискусію до початкового етапу! (Крім того, параметризація обмежень (тобто вибірh(θ)π()

Θh(θ)dπ(θ)=h0
π(θ)exp{λTh(θ)}
dμ(θ)h) впливає на форму отриманого MaxEnt попереднього.)

Хосе Бернардо випустив оригінальну теорію референтних пріорів, де він обирає попереднє, щоб максимально використати інформацію, яку отримують дані, максимізуючи відстань Куллбека між попередньою і задньою. У найпростіших випадках без параметрів неприємностей, рішення є пріоритетом Джефріса. У більш складних проблемах: (a) вибір параметрів, що цікавлять (або навіть ранжування їх порядку інтересів) повинен бути зроблений; (b) обчислення попереднього є досить задіяним і вимагає послідовності вбудованих компактних наборів, щоб уникнути неполадок. (Детальніше див., Наприклад, вибір Байесів.)

У цікавому повороті деякі дослідники за межами байєсівської точки зору розробляли процедури, які називали розподілами довіри, які є розподілом ймовірності на просторі параметрів, побудованим шляхом інверсії з частотних процедур без явної попередньої структури або навіть домінуючої міри щодо цього простору параметрів. Вони стверджують, що ця відсутність чітко визначеного попереднього курсу є плюсом, хоча результат, безумовно, залежить від вибору процедури, заснованої на початковій частоті

Коротше кажучи, немає "найкращого" (або навіть "кращого") вибору для "" неінформативного "попереднього. І я вважаю, що так має бути, оскільки сама природа байєсівського аналізу передбачає, що вибір попереднього розподілу має значення. І що немає порівняння пріорів: не можна бути "кращим", ніж інший. (Принаймні, перш ніж спостерігати за даними: як тільки це спостерігається, порівняння апріорів стає типовим вибором.) Висновок Хосе Бернардо, Джима Бергера, Донччу Сун та багатьох інших "об'єктивних" байесівців полягає в тому, що є приблизно еквівалентні референтні пріорі використовувати, коли не знаєте про свою попередню інформацію або шукаєте байєсівського висновку, де деякі з цих пріорів частково підтримуються аргументами теорії інформації,


14
(+1) Ваша книга? О чорт. У мене так є 387 питань до вас :)
Елвіс

4
(+1) Для об'єктивної (не менше!) Прямої відповіді.
кардинал

2
+1 Дякую за гарний та добре проінформований огляд проблем.
качан

2
Видатна відповідь. Дякую. І ще одна книга, яка вийде до списку бажань.
Фоміт

1
Це майже несправедливо. Зрештою, він Крістіан Роберт! Просто шуткую. Чудова відповідь. І я хотів би, щоб @ Xi'an міг розширити це у публікації на своєму блозі, особливо про те, наскільки параметризація важлива для теми "неінформативних" пріорів.
Маноель Галдіно

16

Привабливою властивістю формальних неінформативних пріорів є "властивість частотистичної відповідності": це означає, що задній інтервал достовірності 95% також є (щонайменше, приблизно) інтервалом впевненості 95% у частістському розумінні. Ця властивість є попередньою посиланням Бернардо, хоча фонди цих неінформативних пріорів не орієнтовані на досягнення хорошої властивості, що відповідає частоті, якщо ви використовуєте "наївну" ("плоску") неінформативну інформацію, таку як рівномірний розподіл або гауссова розповсюдження з величезною дисперсією, тоді немає гарантії того, що властивість часто узгоджених частот відповідає. Можливо, посилання Бернардо до цього не могла розглядатися як "кращий" вибір неінформативного попереднього, але може вважатися найбільш вдалим.


9

Розподіл Джеффрі також страждає від невідповідностей: пріори Джеффрі для змінної над або понад є неправильними, що не стосується Джеффрі перед параметром ймовірності : міра має масу більше .(,)(0,)pdp/p(1p)π(0,1)

Рені показав, що неінформативний розподіл повинен бути пов'язаний з неправильним інтегралом. Дивіться натомість розподіли Lhoste, які уникають цієї складності та є інваріантними при зміні змінних (наприклад, для , міра ).pdp/p(1p)


По-перше, переклад хороший!

Для Е. LHOSTE: "Le calcul des Probabilités applyqué à l'artillerie", Revue d'artillerie, том 91, травень 1923

Для А. РЕНІ: "Про нову аксіоматичну теорію вірогідності" Acta Mathematica, Académie des Sciences hongroises, том VI, фас.3-4, 1955

Я можу додати: М. ДЮМАС: "Lois de Probabilité a priori de Lhoste", Sciences et техніка de l'armement, 56, 4ème fascicule, 1982, pp 687-715


3
Чи можливо ви переписати це англійською мовою, навіть якщо це зроблено досить погано через автоматизовану службу перекладу, як Google Translate? Інші користувачі, які вільно володіють французькою та англійською мовами, можуть допомогти скопіювати її для редагування.
Срібна рибка

3
Наскільки я пам’ятаю, результат інваріантності Лосте обмежується перетвореннями та для параметрів на та відповідно. Інші перетворення від та до приведуть до різних пріорів. logσlogp/(1p)(0,)(0,1)(0,)(0,1)R
Сіань

2
З мого короткого листування з Морісом Дюма на початку 1990-х років я пам’ятаю, що він написав Note aux Comptes-Rendus de l'Académie des Sciences, де він використовує перетворення і для отримання " інваріантні "пріори. logit ( )log()logit()
Сіань

3

Я погоджуюся з чудовою відповіддю Сіань , вказуючи, що немає жодного попереднього, що було б "неінформативним" у сенсі нести ніякої інформації. Щоб розширити цю тему, я хотів би зазначити, що однією з альтернатив є проведення байєсівського аналізу в неточних імовірнісних рамках (див. Есп . Walley 1991 , Walley 2000 ). У цих рамках попередня віра представлена набором розподілів ймовірностей, і це призводить до відповідного набору заднього розподілу. Це може здатися, що це буде не дуже корисно, але насправді це досить дивовижно. Навіть при дуже широкому наборі попередніх розподілів (де певні моменти можуть сягати всіх можливих значень), ви часто все ще отримуєте задню конвергенцію до однієї задньої, як .n

Ця аналітична структура була аксіоматизована Валлі як власна спеціальна форма ймовірнісного аналізу, але по суті еквівалентна надійному байєсівському аналізу з використанням набору пріорів, що дає відповідний набір позиціонерів. У багатьох моделях можливо встановити "неінформативний" набір апріорів, який дозволяє змінювати деякі моменти (наприклад, попереднє середнє значення) протягом усього можливого діапазону значень, і це, тим не менш, дає цінні результати задніх сторін, де задні моменти обмежені більш щільно. Ця форма аналізу, мабуть, має більш високу претензію до того, що її можна назвати "неінформативною", принаймні щодо моментів, які здатні змінюватись протягом усього допустимого діапазону.


Простий приклад - модель Бернуллі: Припустимо, ми спостерігаємо дані де - невідомий параметр, що цікавить. Зазвичай ми б використовували бета-щільність як попередню (як попередня, так і попередня довідка Джефрі є такою формою). Ми можемо вказати цю форму попередньої щільності у перерахунку на попереднє середнє значення та інший параметр як:X1,...,Xn|θIID Bern(θ)θμκ>1

π0(θ|μ,κ)=Beta(θ|μ,κ)=Beta(θ|α=μ(κ1),β=(1μ)(κ1)).

(Ця форма дає попередні моменти та .) Тепер у неточній моделі ми могли б Встановіть попередній, що складається з набору всіх цих попередніх розподілів над усіма можливими очікуваними значеннями , але з іншим параметром, зафіксованим для контролю точності над діапазоном середніх значень. Наприклад, ми можемо використовувати набір пріорів:E(θ)=μV(θ)=μ(1μ)/κ

P0{Beta(μ,κ)|0μ1}.

Припустимо, ми спостерігаємо позитивних показників у даних. Потім, використовуючи правило оновлення для моделі Бернуллі-бета, відповідний задній набір:s=i=1nxi

Px={Beta(s+μ(κ1)n+κ1,n+κ)|0μ1}.

Діапазон можливих значень заднього очікування:

sn+κ1E(θ|x)s+κ1n+κ1.

Тут важливо те, що, хоча ми почали з моделі, яка була "неінформативною" щодо очікуваного значення параметра (попереднє очікування варіювалося над усіма можливими значеннями), ми все-таки закінчуємося задніми висновками, які є інформативними щодо до заднього очікування параметра (тепер вони перебувають у межах більш вузького набору значень). Оскільки цей діапазон значень видавлюється до однієї точки, що є справжнім значенням .nθ


+1. Цікаво. Що таке каппа в останньому рівнянні? Чи повинна це бути зірка каппа?
амеба

Я відредагував, щоб видалити варіацію щоб надати простішу модель. Зараз має бути гаразд. κ
Бен
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.