Чи можливо інтерпретувати завантажувальний інструмент з байєсівської точки зору?


43

Гаразд, це питання, яке підтримує мене вночі.

Чи можна інтерпретувати процедуру завантаження як наближення деякої байєсівської процедури (за винятком байєсівської завантажувальної програми)?

Мені дуже подобається байєсівське «тлумачення» статистики, яке мені здається добре узгодженим і зрозумілим. Однак у мене також є слабкість щодо завантажувальної процедури, яка є такою простою, але дає розумні висновки у багатьох ситуаціях. Я був би більш задоволений завантажувальним завантаженням, однак, якби я знав, що завантажувальна машина в деякому сенсі наближає до заднього розподілу.

Я знаю про "байєсівський завантажувальний пристрій" (Rubin, 1981), але з моєї точки зору, версія версії завантажувача така ж проблемна, як і стандартна завантажувальна програма. Проблема полягає в дійсно своєрідному припущенні моделі, яке ви робите, як при виконанні класичної, так і байєсівської завантажувальної програми, тобто можливі значення розподілу - це лише ті значення, які я вже бачив. Яким чином ці дивні припущення щодо моделі все-таки можуть зробити дуже обґрунтовані умовиводи, які дають процедури завантаження? Я шукав статті, які досліджували властивості завантажувальної програми (наприклад, Weng, 1989), але я не знайшов чіткого пояснення, яким я задоволений.

Список літератури

Дональд Б. Рубін (1981). Байєзький бутстрап. Енн. Статист. Том 9, № 1, 130-134.

Чунг-Сінг Венг (1989). Про асимптотичну властивість другого порядку байєсівського середнього завантаження. Анали статистики , Вип. 17, № 2, стор 705-710.


3
Я щойно написав повідомлення в блозі про "завантажувальну систему як байєсівська модель" ( sumsar.net/blog/2015/04/… ), яка досліджує байєсівські "пояснення" завантажувальної програми. Це не відповідає безпосередньо на вищезазначені питання, але я сподіваюсь, що це стане зрозумілішим, що таке завантажувальна програма і що вона робить.
Rasmus Bååth

Прочитайте muliere та secchi (1996) байезійські непараметричні методи прогнозування та виведення. Тая адреса точно ваша точка!

Відповіді:


30

Розділ 8.4 Елементів статистичного навчання Хасті, Тібшірані та Фрідмана - "Зв'язок між Бутстрапом і Байєсовим висновком". Це може бути саме те, що ви шукаєте. Я вважаю, що ця книга є у вільному доступі через веб-сайт Стенфорда, хоча я не маю посилання.

Редагувати:

Ось посилання на книгу, яку автори безкоштовно розміщували в Інтернеті:

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

На сторінці 272 автори пишуть:

У цьому сенсі розподіл завантажувальної програми представляє (приблизний) непараметричний, неінформативний задній розподіл для нашого параметра. Але таке розповсюдження завантажувального пристрою отримується безболісно - без необхідності формально вказати попередній та без необхідності вибірки з заднього розподілу. Отже, ми можемо подумати про розподіл завантажувального апарату як про "бідного чоловіка" Байєса заднього. Пошкоджуючи дані, завантажувальна стрічка наближає байєсівський ефект від збудження параметрів, і, як правило, набагато простіше виконати.

Ще один фрагмент головоломки знайдений у цьому перехресному підтвердженому питанні, в якому згадується нерівність Дворецького - Кіфер-Вольфовіца, яка «показує [...], що емпірична функція розподілу рівномірно сходиться до справжньої функції розподілу експоненціально швидко ймовірно».

Таким чином, загалом непараметричний завантажувальний механізм може розглядатися як асимптотичний метод, який виробляє "(приблизний) непараметричний, неінформативний задній розподіл для нашого параметра", і де це наближення стає кращим "експоненціально швидко", оскільки кількість зразків збільшується.


3
Хоча ми завжди цінуємо посилання на відповідний матеріал, ця відповідь була б значно покращена, якби було включено короткий підсумок цього розділу.
кардинал

1
Останній біт із цього розділу може бути кориснішим: завантажувальний пристрій - це приблизний непараметричний, неінформативний задній розподіл для оцінюваного параметра. Весь розділ варто прочитати.
Фрейджо

2
Дякуємо за посилання! Якщо я читаю Хасті та ін. справа вони показують відповідність між непараметричним бустрапом і байєсівським завантажувальним пристроєм і стверджують, що перший наближає другий. Вони не дуже пишуть про те, чому завантажувальна програма (байєсийська чи ні) призводить насамперед до розумних висновків. На що я сподівався, було щось на кшталт: "За умови [деяких загальних обставин] завантажувальний пристрій наближає справжній задній розподіл параметра / статистики з помилкою, яка є [щось], і це залежить від [цього і того]".
Rasmus Bååth

Дякую за допомогу в покращенні моєї відповіді. Ясніше пояснення, яке я чув, чому працює завантажувальний пристрій, - це те, що зразок, який ви тільки що зібрали, є найкращим представленням усього населення. Але я недостатньо ймовірний, щоб сказати це більш формально.
EdM

Якщо я пригадую, вони висловлюють цей аргумент, завантажують NN і продовжують отримувати вершком повністю байєсівського НН від Radford Neal. Я думаю, що це щось говорить, не впевнений, що все-таки.
хлопець

3

Це останній документ, який я бачив на цю тему:

@article{efr13bay,
author={Efron, Bradley},
title={Bayesian inference and the parametric bootstrap},
journal={Annals of Applied Statistics},
volume=6,
number=4,
pages={1971-1997},
year=2012,
doi={10.1214/12-AOAS571},
abstract={Summary: The parametric bootstrap can be used for the efficient
    computation of Bayes posterior distributions. Importance sampling formulas
    take on an easy form relating to the deviance in exponential families and
    are particularly simple starting from Jeffreys invariant prior. Because of
    the i.i.d. nature of bootstrap sampling, familiar formulas describe the
    computational accuracy of the Bayes estimates. Besides computational
    methods, the theory provides a connection between Bayesian and frequentist
    analysis. Efficient algorithms for the frequentist accuracy of Bayesian
    inferences are developed and demonstrated in a model selection example.},
keywords={Jeffreys prior; exponential families; deviance; generalized linear
    models},
classmath={*62F15 (Bayesian inference)
62F40 (Resampling methods)
62J12 (Generalized linear models)
65C60 (Computational problems in statistics)}}

2
Моя інтерпретація статті полягає в тому, що вона описує метод завантаження для обчислення заднього розподілу визначеної моделі, тобто метод, який можна використовувати замість, наприклад, вибірки мегаполісів. Я не бачу, щоб у статті обговорювався зв’язок між припущеннями непараметричної завантажувальної моделі та байєсівською оцінкою ...
Rasmus Bååth

1
Він дійсно претендує на це. Я детально не читав папери.
Френк Харрелл

5
Френк: Мені не дуже подобалося читати цей документ Ефроном - те, що він робить, можна розглядати як просто послідовний зразок важливості, який починається з вірогідності і намагається дістатися до задньої частини (що часто спрацьовує). Метою Рубіна в статті 1981 року було поставити під сумнів доцільність завантаження, але Ефрон, очевидно, досяг протилежного погляду. Девід Дрейпер переглянув це цього літа в своєму курсі JSM і прийшов до висновку, що він поганий, за винятком випадків, коли ви бачите більшість можливостей у вибірці. Але дивіться тут normaldeviate.wordpress.com/2013/06/12 / ...
фанерон

1

Мене теж спокусили і завантажувальна, і теорема Байєса, але я не міг багато розуміти виправдання завантажувального завантаження, поки не подивився на це з байєсівської точки зору. Тоді - як я пояснюю нижче - розподіл завантажувальної стрічки можна розглядати як байєсівський задній розподіл, що робить (a?) Обґрунтуванням завантажувальної передачі очевидним, а також мав перевагу уточнення зроблених припущень. Більш детально аргумент представлений нижче та припущення, зроблені на https://arxiv.org/abs/1803.06214 (сторінки 22-26).

Наприклад, налаштований на електронну таблицю за адресою http://woodm.myweb.port.ac.uk/SL/resample.xlsx (натисніть на вкладку завантажувальної машини внизу екрана), припустимо, у нас є вибірка з 9 вимірювань із середнім значенням 60. Коли я використовував електронну таблицю для створення 1000 повторних зразків із заміною цього зразка і округлював кошти до найближчого парного числа, 82 з цих засобів було 54. Ідея завантаження даних полягає в тому, що ми використовуйте вибірку як групу "прикиньтесь", щоб побачити, наскільки ймовірними можуть бути зразки 9, тому це говорить про те, що ймовірність вибірки означає на 6 нижче середньої сукупності (у цьому випадку сукупність претендентів на основі зразок із середнім значенням 60) становить 8,2%. І ми можемо прийти до аналогічного висновку щодо інших барів у перестановці гістограми.

Тепер давайте уявимо, що правда полягає в тому, що середня реальна чисельність населення дорівнює 66. Якщо це так, наша оцінка ймовірності вибірки середнього значення 60 (тобто Дані) становить 8,2% (використовуючи висновок в абзаці, що згадується вище що 60 на 6 нижче за значення гіпотезованої сукупності 66). Запишемо це як

P (дані задані середнім = 66) = 8,2%

і ця ймовірність відповідає значенню x 54 на розподілі переустановки. Такий самий аргумент застосовується до кожного можливого середнього значення сукупності від 0, 2, 4 ... 100. У кожному випадку ймовірність походить від розподілу переустановки - але це розподіл відбивається приблизно на середньому рівні 60.

Тепер застосуємо теорему Байєса. Розмір, про який йдеться, може приймати значення лише від 0 до 100, тому округлюючи до найближчого парного числа, можливості для середнього числа населення становлять 0, 2, 4, 6, .... 100. Якщо припустити, що попередній розподіл є плоским, кожен з них має попередню ймовірність 2% (до 1 dp), і теорема Байєса говорить нам, що

P (PopMean = 66 заданих даних) = 8,2% * 2% / P (дані)

де

P (дані) = P (PopMean = 0 заданих даних) * 2% + P (PopMean = 2 дані) * 2% + ... + P (PopMean = 100 заданих даних) * 2%

Тепер ми можемо скасувати 2% і пам’ятати, що сума ймовірностей повинна бути 1, оскільки ймовірності - це просто ті, які є з розподілу перестановки. Що дозволяє нам зробити висновок, що

P (PopMean = 66) = 8,2%

Пам’ятаючи, що 8,2% - це ймовірність розподілу переустановки, що відповідає 54 (замість 66), задній розподіл - це просто розподіл переустановки, відображений про середню вибірку (60). Далі, якщо розподіл перекомпонування є симетричним у тому сенсі, що асиметрії є випадковими - як це є в цьому та багатьох інших випадках, ми можемо вважати розподіл повторного зразка таким, що є ідентичним задньому розподілу ймовірності.

Цей аргумент робить різні припущення, головне з яких - попередній розподіл рівномірний. Вони детальніше прописані в цитованій вище статті.


Є таке поняття, як байєсівська завантажувальна машина, яку представив Рубін. Але я не думаю, що це саме ви маєте на увазі. Звичайна завантажувальна програма, запроваджена Ефроном, - це дійсно частість.
Майкл Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.