Історія неінформативної попередньої теорії


24

Я пишу короткий теоретичний нарис курсу байесівської статистики (в економічній галузі магістра) про неінформативні пріори, і я намагаюся зрозуміти, які кроки у розвитку цієї теорії.

Наразі на моїй шкалі часу зроблено три основні етапи: принцип байдужості Лапласа (1812), неінваріантні пріори (Джеффріс (1946)), попередній посилання Бернардо (1979).

З мого огляду літератури я зрозумів, що принцип байдужості (Лаплас) був першим інструментом, який використовувався для представлення відсутності попередньої інформації, але відсутня вимога інваріантності призвела до її відмови до 40-х років, коли Джеффріс ввів свій метод, який має бажана властивість інваріантності. Виникнення парадоксів маргіналізації через необережне використання неналежного до 70-х років спонукало Бернардо розробити свою попередню теорію для вирішення цього питання.

Читаючи літературу, кожен автор наводить різний внесок: максимальна ентропія Джейнеса, вірогідність перекладених даних Box і Тіао, Zellner, ...

На вашу думку, які найважливіші кроки я пропускаю?

EDIT : я додаю свої (основні) посилання, якщо комусь потрібно:

1) Вибір попередніх за формальними правилами, Касс, Вассерман

2) Каталог неінформативних пріорів, Ян, Бергер

3) Неінформативна інтерпретація байосівських пріорів та проблеми з побудовою та застосуванням


10
як тільки ви закінчите цей теоретичний нарис, ви б хотіли якось пов’язати його тут?
Nikolas Rieble

2
Було б чудово, якби ви могли дати відповідь на власне питання, узагальнюючи свою тезу.
Тім

3
Я раніше пов’язував цю статтю, але епічна історія з максимальною вірогідністю охоплює історичний "проміжок" між Лапласом і Джеффрі: де роботи Гаусса, Хотелінга, Фішера, Бернуллі та інших вказали на оцінку максимальної ймовірності за той час.
AdamO

2
@alessandro описує, як лаплакійський підхід дотримувався в основному століття після того, як Гаус розробив і використав рівномірні відбитки (сприймаючи їх як неінформативні). Пірсон та Крістін Сміт відмовилися від ML, оскільки отриманий висновок не мав стосунку до ймовірностей, як хотів би баєц.
AdamO

7
Хвилинка (педантична, якщо вам подобається), але можливо корисна точка: Джеффріс (професор сер) Гарольд Джеффріс, британський прикладний математик, геофізик та багато іншого; він пояснив мені в листі 40 років тому, що він віддав перевагу поступливим Джеффрісом, тому що Джеффріс піддавався мутації до зовсім неправильних Джефрі. Вище маємо приклад! (Не допомагає, що Річард К. Джеффрі, американський філософ, зовсім інша людина, теж писав про ймовірність.)
Нік Кокс

Відповіді:


13

Чого, здається, вам не вистачає, це рання історія. Ви можете перевірити статтю Фінберга (2006). Коли байєсівський висновок став "байєсівським"? . По-перше, він зауважує, що Томас Байєс був першим, хто запропонував використовувати єдину форму:

У сучасній статистичній мові документ Байєса вводить рівномірний попередній розподіл на біноміальний параметр , міркуючи за аналогією з "більярдним столом" і спираючись на форму граничного розподілу біноміальної випадкової величини, а не на принципі "недостатня причина", як стверджували багато інших.θ

П'єр Саймон Лаплас був наступним, хто обговорив це:

Лаплас також сформулював, більш чітко, ніж Байєс, свій аргумент щодо вибору рівномірного попереднього розподілу, стверджуючи, що задній розподіл параметра має бути пропорційним тому, що ми називаємо ймовірністю даних, тобто,θ

f(θх1,х2,,хн)f(х1,х2,,хнθ)

Тепер ми розуміємо, що це означає, що попередній розподіл для є рівномірним, хоча загалом, звичайно, попередній може не існувати.θ

Більше того, Карл Фрідріх Гаус також посилався на використання неінформативного попереднього, як зазначають Девід та Едвардс (2001) у своїй книзі « Анотація читання в історії статистики» :

Гаусс використовує спеціальний аргумент байєсівського типу, щоб показати, що задня щільність пропорційна ймовірності (в сучасній термінології):год

f(год|х)f(х|год)

де він припустив, що рівномірно розподілено по . Гаус не згадує ні Байєса, ні Лапласа, хоча останній популяризував цей підхід ще з Лапласа (1774).год[0,)

і як зазначає Фінберг (2006), "зворотна ймовірність" (і що випливає з використанням рівномірних пріорів) була популярна на рубежі 19 століття

[...] Таким чином, у ретроспективі не дивно, що обернена ймовірність бачиться як метод вибору великих англійських статистиків рубежу століття, таких як Еджворт та Пірсон. Наприклад, Едгуорт (49) дав одну з найбільш ранніх похідних того, що ми тепер знаємо як розподіл Стьюдента , задній розподіл середнього звичайного розподілу, що дається рівномірними попередніми розподілами на та [...]тмкмкгод=σ-1

Рання історія байєсівського підходу також розглядається Стіглером (1986) у своїй книзі «Історія статистики: Вимірювання невизначеності до 1900 року» .

У своєму короткому огляді ви також, схоже, не згадуєте про Рональда Ейльмера Фішера (знову цитується після Фінберга, 2006):

Фішер відступив від зворотних методів і до власного підходу до висновку він назвав "ймовірність", концепція, яку він стверджував, відрізняється від ймовірності. Але прогрес Фішера в цьому плані був повільним. Стіглер (164) зазначав, що в неопублікованому рукописі, що датується 1916 р., Фішер не розрізнив вірогідність і зворотну ймовірність з плоскою до того, хоча, коли пізніше зробив це розрізнення, він стверджував, що він це зрозумів у цей час.

Jaynes (1986) запропонував свій короткий оглядовий документ Bayesian Methods: General Background. Вступний підручник, який ви можете перевірити, але він не зосереджений на неінформативних пріорах. Більше того, як зазначає AdamO , ви обов'язково повинні прочитати Епічну історію максимальної ймовірності від Stigler (2007).

Варто також зазначити, що не існує такого поняття, як "неінформативний пріоритет" , тому багато авторів вважають за краще говорити про "розпливчасті пріори" або "тижневі інформативні пріори" .

Теоретичний огляд надає Касс та Вассерман (1996) у «Вибір попередніх розподілів за формальними правилами» , які детальніше розглядають питання про вибір пріорів, з розширеним обговоренням використання неінформативних пріорів.


Це була така відповідь, яку я шукав. Дякую!
Кандидат

Я думаю, що Фіенберг занадто сильно розширив гордість байєсів. Мені особисто сильно не подобається використовувати "зворотну ймовірність", щоб визначити що-небудь, тому що це, здається, не відповідає цілісній картині геометрії, запропонованій Адлером та Тейлором. Будь-яка хороша статистична процедура повинна мати свою математичну відповідність, зворотна ймовірність настільки скручена, що ви навряд чи можете її проаналізувати, коли проблема трохи чутливіша за моїм досвідом.
Генрі.L

@ Henry.L ... тим не менш, це частина історії статистичної думки :) Зауважте також, що не лише Фінберг надає такі приклади. Весь анти-зворотний імовірний і проти байєсівський повстанець почався через те, що він став досить популярним.
Тім

@Tim Так, я думаю, саме так Томас Кун назвав "зміщення схеми", а також відомий як "... опоненти зрештою гинуть, і нове покоління виростає" :)).
Генрі.L

5

Кілька коментарів щодо недоліків неінформативних пріорів (неінформативні пріори), ймовірно, є хорошою ідеєю, оскільки дослідження таких вад допомогло розвинути в історії концепцію неінформативності.

Ви можете додати коментарі щодо недоліків / недоліків прийняття неінформативних пріоритетів. Серед багатьох зауважень я виділяю дві.

(1) Зазвичай прийняття неінформативних пріорів має проблеми узгодженості, особливо коли модельний розподіл має мультимодальну поведінку.

Ця проблема не характерна лише для неінформативних пріорів, але поділяється багатьма іншими байєсівськими процедурами, як зазначено в наступному документі разом з його обговореннями.

Діаконіс, Персі та Девід Фрідман. "Про узгодженість оцінок Байєса". Аннали статистики (1986): 1-26.

В даний час неінформативний пріоритет більше не є напрямком дослідження. Здається, що є більший інтерес до гнучкішого вибору попереднього в непараметричних умовах. Прикладами є процес Гаусса, який проводився в непараметричній процедурі Байєса, або гнучка модель, як суміш пріорів Діріхле, як у

Антоняк, Чарльз Е. «Суміші процесів Діріхле з додатками до байєсівських непараметричних задач». Літописи статистики (1974): 1152-1174.

Але знову ж таки такий пріоритет має свої проблеми узгодженості.

(2) Більшість так званих "неінформативних пріорів" недостатньо визначені.

Це, мабуть, найбільш очевидна проблема, пов’язана з неінформативними пріорами під час їх розвитку.

Одним із прикладів є те, що визначення межі неінформативного попереднього як межі послідовності власних пріорів призведе до парадоксу маргіналізації. Як ви вже згадували, перед посиланням Бернардо також виникає проблема, що Бергер ніколи не доводив, що його формальне визначення не залежить від його побудови / перегородки. Дивіться дискусію в

Бергер, Джеймс О., Хосе М. Бернардо та Дончу Сун. "Формальне визначення довідників". Аннали статистики (2009): 905-938.

Одним з найкращих визначень попереднього Джефріса, який є чітко визначеним, є те, що він вибирається таким, що є пріоритетним, таким чином, що він є інваріантним при певному паралельному перекладі над римановим колектором, оснащеним інформаційною метрикою Фішера, але навіть це не вирішує першу проблему.

Також ви можете прочитати моє пояснення щодо парадоксу маргіналізації .


Це чудовий пост, і ніхто з нас не думав про це. Чудова робота.
Дейв Харріс

Я вніс кілька невеликих редагувань у вираз, не намагаючись змінити будь-яке значення чи значення. Перевірте, чи під час редагування ваш зміст є інваріантним.
Нік Кокс

4

Я б розмістив у коментарях, але, мабуть, ще не маю репутації. Єдине, що відсутнє, не в коментарях, вже зазначених, - це особливий випадок неінформативних пріорів, походження яких я намагався розшукати і не знайшов. Це може передувати папері Джеффріса.

Для нормального розподілу я бачив, що розподіл Коші використовувався як неінформативний пристрій для даних з нормальною ймовірністю. Причина полягає в тому, що точність розподілу Коші дорівнює нулю, де точність поділяється на дисперсію. Це створює досить своєрідний набір суперечливих концепцій.

1πΓΓ2+(х-мк)2.

Залежно від того, як ви визначаєте інтеграл, немає або визначеної дисперсії, або йде до нескінченності щодо медіани, що означає, що точність йде до нуля. У поєднанні оновлення, яке тут не застосовується, ви додаєте зважені точності. Я думаю, саме тому сформувалася така ідея власного дотримання з абсолютно неточною щільністю. Він також еквівалентний студентському t з одним ступенем свободи, який також може бути джерелом.

2Γ

Дві найбільш ранні згадки про розподіл Коші є функціями вірогідності. Перший у листі від Пуассона до Лапласа як виняток із теореми про центральну межу. Другий був у 1851 р. У журнальних статтях у битві між Бієнаймою та Коші за дійсність звичайних найменших квадратів.

Я знайшов посилання на його використання як неінформативну інформацію ще до 1980-х, але не можу знайти першу статтю чи книгу. Я також не знайшов доказ того, що це неінформативно. Я знайшов цитату до книги Джефріса про теорію ймовірностей 1961 року, але я ніколи не просив її отримати книгу за допомогою міжбібліотечної позики.

Це може бути просто слабоінформативним. 99,99% області найвищої щільності - 1272 напівквартильні діапазони.

Я сподіваюся, що це допомагає. Це дивний особливий випадок, але ви бачите, що він з'являється у ряді регресійних паперів. Він задовольняє вимогам для дії Байєса, будучи належним попереднім, при цьому мінімально впливаючи на розташування та масштаб.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.