Коли Баєсові методи переважніші перед частотологами?


18

Мені дуже хочеться дізнатися про байєсівські методики, тому я намагався трохи навчити себе. Однак мені важко бачити, коли використання байєсівських методів коли-небудь надає перевагу перед частотологічними методами. Наприклад: Я бачив у літературі трохи про те, як одні використовують інформативні пріори, тоді як інші використовують неінформативні попередні. Але якщо ви використовуєте неінформативний попередній (що здається насправді поширеним?), І ви виявите, що задній розподіл, скажімо, бета-розподіл ... чи не могли б ви просто підходити до бета-розподілу на початку та називали це добре? Я не бачу, як побудова попереднього розповсюдження, яка нічого не говорить вам, може, справді щось вам сказати?

Виявляється, деякі методи, якими я користувався в R, використовують суміш байєсівських та частотологічних методів (автори визнають, що це дещо непослідовно), і я навіть не можу розрізнити, які саме частини є байєсівськими. Окрім розподілу, я не можу навіть зрозуміти, як би ви використовували байєсовські методи. Чи існує "баєсова регресія"? Як би це виглядало? Все, що я можу собі уявити, - це здогадуватися про основний розподіл знову і знову, тоді як Частіст думає про деякі дані, очні яблука, бачить розповсюдження Пуассона і запускає GLM. (Це не критика ... Я насправді просто не розумію!)

Так ..можливо, якісь елементарні приклади допоможуть? І якщо ви знаєте кілька практичних посилань для справжніх новачків, як я, це теж було б корисно!


Можливий дублікат цього ?
Glen_b -Встановіть Моніку

Е, схоже? Ласкаво просимо до закриття, оскільки це близьке до відповіді на моє запитання. Я все ще дивуюсь про простіші ситуації, які я описав (оскільки я ніколи не чув про методи, перелічені в цій темі), але я вважаю, що моя відповідь полягає в тому, що люди НЕ використовують байєсівські методи для регресії / тощо, оскільки існують усталені та легкі частістські методи?
HFBrowning

2
Люди дійсно використовують Байеса методи регресії. Але оскільки частофілістські методи дуже зручні, і багато людей прагматичні щодо того, який підхід вони використовують, тому часто люди, які із задоволенням використовують або використовуватимуть звичайну регресію, якщо немає необхідності у чомусь більш складному. Але як тільки вам доведеться розібратися з трохи більшою складністю, або офіційно включити попередню інформацію або будь-яку низку інших причин, тоді скромна додаткова робота в байєсівських підходах починає виглядати добре.
Glen_b -Встановіть Моніку

Це має сенс, дякую. Читання навколо деяких інших тем роз'яснило використання і для мене.
HFBrowning

Щось інше, що актуально .. для регресії в байєсівській обстановці, найбільш використовувані пріори для коефіцієнтів - це багатоваріантний нормальний і багатоваріантний Лаплас. Використання цих пріорів розробляє накладання штрафних коефіцієнтів на зменшення коефіцієнтів, роблячи їх еквівалентом відповідно до використання гребінної регресії або LASSO відповідно, якщо потрібно брати оцінку коефіцієнтів MAP за алгоритмом Байєса. Набагато економніше обчислити ці результати таким чином, що не є повністю байєсівським, і якщо вони в основному еквівалентні .. навіщо турбуватися?

Відповіді:


11

Ось кілька посилань, які можуть вас зацікавити, якщо порівнювати часті та байєсівські методи:

Якщо коротко, то, як я це зрозумів, враховуючи конкретний набір даних, частофіліст вважає, що існує істинне основне розподіл, з якого були створені дані. Неможливість отримати точні параметри є функцією кінцевого розміру вибірки. З іншого боку, байєсівці думають, що ми починаємо з певного припущення про параметри (навіть якщо це несвідомо) і використовуємо дані, щоб уточнити нашу думку про ці параметри. Обидва намагаються розробити модель, яка може пояснити спостереження та робити прогнози; різниця полягає в припущеннях (як власне, так і філософських). Як жалюгідне, не суворе твердження, можна сказати, що частофіліст вважає, що параметри фіксовані, а дані - випадкові; Баєсій вважає, що дані фіксовані, а параметри - випадкові. Що краще чи краще? Щоб відповісти, що вам потрібно копатись і просто усвідомлюватиякі припущення пов'язані з кожним (наприклад, параметри асимптотично нормальні?).


2
Дуже багато чудових і цікавих відповідей, але це відповіло на мої запитання безпосередньо. Спасибі
HFBrowning

@Avraham перше посилання розірвано
Ерік

1
@ErikHambardzumyan Дякую Знайдена версія, збережена на зворотній машині.
Аврахам

10

Одним із багатьох цікавих аспектів контрастів між двома підходами є те, що дуже важко формальне тлумачення для багатьох кількостей, які ми отримуємо в області частотистів. Одним із прикладів є постійно зростаюче значення методів пеналізації (усадки). Коли ви отримуєте пеніалізовані максимальні оцінки ймовірності, упереджені оцінки балів та "інтервали довіри" дуже важко інтерпретувати. З іншого боку, байєсівський задній розподіл для параметрів, пеналізованих до нуля за допомогою попереднього розподілу, зосередженого навколо нуля, мають цілком стандартні інтерпретації.


1
Це хороший момент. Цікаво, чи це в першу чергу вірно, коли лямбда вибирається апріорі, хоча. Часто можна вибрати лямбда, використовуючи перехресну перевірку для оптимізації помилки прогнозування вибірки. У цьому випадку мені здається дивним сказати, що лямбда еквівалентна "попередній інформації", яку ви принесли на аналіз.
gung - Відновіть Моніку

1
λ=σ2λ

3
Я б сказав, що Ламбда був гіперпараметром попереднього (для того, щоб бути більш баєсівським, ви можете мати гіпер-пріор і маргіналізуватись над цим, а також jmlr.org/papers/volume8/cawley07a/cawley07a.pdf )
Dikran Marsupial

5

Я розкрадаю цей гурток у групи користувачів Stan. Майкл Бетанкур надав цю дійсно хорошу дискусію щодо ідентифікованості байєсівських висновків, яка, на мою думку, перебуває у вашому запиті щодо протиставлення двох статистичних шкіл.

Перша відмінність від байєсівського аналізу полягатиме в наявності пріорів, які, навіть коли слабкі, обмежуватимуть задню масу для цих 4 параметрів у кінцевому сусідстві (інакше б у вас не було дійсного попереднього). Незважаючи на це, ви все ще можете мати неідентифікацію в тому сенсі, що задній не буде сходитися до точкової маси в межах нескінченних даних. Однак у дуже реальному сенсі це не має значення, оскільки (a) нескінченна межа даних все одно не є реальною, і (b) Байєсівський висновок не повідомляє бальних оцінок, а швидше розподілу. На практиці така неідентифікація призведе до великих кореляцій між параметрами (можливо, навіть невипуклістю), але правильний байєсовський аналіз виявить ці кореляції. Навіть якщо ви повідомляєте одиничні маргінали параметрів,

μ1μ2N(x|μ1+μ2,σ)μ1+μ2=0μ1μ2

μ1μ2μ1μ2


3

Ключова відмінність між байєсівськими і частолістськими підходами полягає у визначенні ймовірності, тому, якщо до ймовірностей потрібно ставитись суворо як частота довгого запуску, то часті підходи є розумними, якщо це не так, слід використовувати байєсівський підхід. Якщо будь-яка інтерпретація є прийнятною, то, можливо, байєсівський і частолістський підходи можуть бути розумними.

Інший спосіб цього - якщо ви хочете дізнатися, які умовиводи можна зробити з конкретного експерименту, ви, ймовірно, хочете бути баєсами; якщо ви хочете зробити висновки про деяку сукупність експериментів (наприклад, контроль якості), то частістські методи цілком підходять.

По суті, важливо знати, на яке запитання ви хочете відповісти, і обрати форму аналізу, яка відповість на це питання найбільш безпосередньо.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.