Чому хтось використовує байєсівський підхід із "неінформативним" невідповідним замість класичного підходу?


44

Якщо інтерес полягає лише у оцінці параметрів моделі (точкове та / або інтервальне оцінювання) і попередня інформація не є достовірною, слабкою (я знаю, це трохи розпливчасто, але я намагаюся встановити сценарій, коли вибір вибору перед цим важко) ... Чому хтось вирішить використовувати байєсівський підхід із "неінформативними" неналежними пріорами замість класичного підходу?


1
Дякую всім за такі цікаві думки щодо цієї суперечливої ​​частини байєсівської статистики. Я читав і порівнював ваші моменти. Є цікаві аргументи, що підтверджують його використання з точки зору формальних правил, практичності та тлумачення. Я виберу відповідь у якийсь момент, але я побоююся, що це буде дуже складним завданням.

Відповіді:


24

Дві причини, з яких можна застосувати байєсівський підхід, навіть якщо ви використовуєте сильно неінформативні пріори:

  • Проблеми конвергенції. Є деякі розподіли (біноміальний, негативний біноміальний та узагальнений гамма - ті, з ким я найбільше знайомий), які мають проблеми конвергенції нетривіальної кількості часу. Ви можете використовувати «баєсівський» фреймворк - і конкретні методи Маркова ланцюга Монте-Карло (MCMC), щоб по суті обробляти ці проблеми конвергенції обчислювальною потужністю і отримувати з них гідні оцінки.
  • Інтерпретація. Байєсівська оцінка + 95% достовірний інтервал має більш інтуїтивну інтерпретацію, ніж частолістська оцінка + 95% довірчий інтервал, тому деякі можуть вважати за краще просто повідомити про них.

3
MCMC насправді не баєсівський метод. Ви можете просто зробити оцінки з цільової ймовірності (не задньої), якщо проблема буде конвергенцією.
scottyaz

16

Хоча результати будуть дуже схожими, їх інтерпретації відрізняються.

Інтервали довіри передбачають поняття повторення експерименту багато разів та можливість фіксації справжнього параметра в 95% разів. Але ви не можете сказати, що у вас є 95% шансу захопити його.

Достовірні інтервали (байєсівські), з іншого боку, дозволяють сказати, що є 95% "шанс", що інтервал захопить справжнє значення. Оновлення: Більш байєсівський спосіб висловити це означає, що ви можете бути на 95% впевнені у своїх результатах.

Це лише тому, що ви перейшли з до використовуючи Правило Бая.P(Data|Hypothesis)P(Hypothesis|Data)


1
Мене тут можуть заплутати, але як "справжня цінність" вписується в байєсівські рамки? Можливо, ви маєте на увазі задній режим (або середній, або .. тощо)?
Макрос

Я маю на увазі будь-який параметр (значення сукупності), який ви оцінюєте за статистикою вибірки, будь то середнє значення, середня різниця, нахил регресії ... Якщо коротко, що ви хочете.
Домінік Комтуа

1
Так, але чи "справжнє значення" не означає, що параметр є константою (тобто його розподіл є точковою масою)? Вся концепція погляду на задній розподіл, схоже, не погоджується з таким чином мисленням параметрів.
Макрос

9

Я вважаю, що одна з причин цього - байєсівський аналіз забезпечує повне заднє розподіл. Це може призвести до більш детальних інтервалів, ніж типова частофілістика . Придатною цитатою з Рейса та Стедінгера 2005 року є:±2σ

Забезпечення повного заднього розподілу параметрів є перевагою байєсівського підходу - порівняно з класичними методами, які зазвичай дають лише точкову оцінку параметрів, представлених модою функції ймовірності, і використовують припущення про асимптотичну нормальність і квадратичне наближення функції вірогідності журналу для опису невизначеностей. З байєсівською рамкою не потрібно використовувати жодного наближення для оцінки невизначеностей, оскільки доступний повний задній розподіл параметрів. Більше того, байєсівський аналіз може забезпечити достовірні інтервали для параметрів або будь-яку функцію параметрів, які інтерпретуються легше, ніж поняття довірчого інтервалу в класичній статистиці (Congdon, 2001).

Так, наприклад, ви можете обчислити достовірні інтервали для різниці між двома параметрами.


6

Сер Гарольд Джеффріс був рішучим прихильником байєсівського підходу. Він показав, що якщо використовувати дифузні неправильні пріори, то отриманий байєсівський висновок був би таким же, як і частістський інфекційний підхід. Більшість байесів прихильників належних інформаційних пріорів. Є проблеми з неправильними пріорами, і деякі можуть стверджувати, що жодне попереднє дійсно не є інформаційним. Я думаю, що байєси, які використовують цих попередників Джеффрі, роблять це як послідовники Джефріса. Денніс Ліндлі , один з найсильніших прихильників байєсівського підходу, дуже поважав Джефріса, але виступав за інформативні пріорі.


1
+1 за перші кілька рядків вашої відповіді. На мій погляд, причина вибору "Джефріса" перед "неінформативним" пріоритетом є не просто послідовником Джефріса. Це тому, що це насправді не робити припущення, тоді як так званий неінформативний пріоритет робить припущення про параметризацію.
Ніл G

1
@NeilG Я також знайшов таких людей, як по суті їх "Fail Frequency" (у тому ж сенсі, що і Fail Safe) при використанні неінформативних пріорів, щоб їх можна інтерпретувати наївним читачем.
Фоміт

@EpiGrad: Що ти маєш на увазі? (Вибачте, моє розуміння частолістської статистики дуже погане.)
Ніл G

1
@NeilG По суті, експлуатуючи те, що попередник Джеффрі дасть вам те, що очікує побачити хтось, хто навчався в частофілістських сферах. Це гідне середнє місце, коли робота в розміщених байєсівських методах не проникла багато.
Фоміт

@NeilG Я також забув, що, як і у моїй відповіді, якщо ви використовуєте MCMC для проведення частого аналізу, перебираючи проблеми конвергенції, тоді також корисний попередник Джефрі.
Фоміт

6

Байєсівський підхід має практичні переваги. Це допомагає в оцінці, часто є обов'язковим. І це дозволяє родини нових моделей, а також допомагає будувати складніші (ієрархічні, багаторівневі) моделі.

Наприклад, при змішаних моделях (включаючи випадкові ефекти з параметрами дисперсії) можна отримати кращі оцінки, якщо параметри дисперсії оцінюються шляхом маргіналізації над параметрами нижчого рівня (модельні коефіцієнти; це називається REML ). Байєсівський підхід робить це природно. У цих моделях, навіть при REML, оцінки максимальної ймовірності (ML) параметрів дисперсії часто дорівнюють нулю або зміщуються вниз. Допоможе правильний параметр параметрів дисперсії.

Навіть якщо використовується оцінка точки ( MAP , max a posteriori), пріори змінюють сімейство моделей. Лінійна регресія з великим набором дещо колінеарних змінних нестабільна. Регуляризація L2 використовується як засіб, але вона може бути інтерпретована як байесівська модель з гауссова (неінформативної) попередньою та оцінкою MAP. (Регуляризація L1 - це інший пріоритет і дає різні результати. Насправді тут пріоритет може бути дещо інформативним, але йдеться про колективні властивості параметрів, а не про один параметр.)

Отже, є кілька поширених і відносно простих моделей, де потрібен байєсівський підхід просто для того, щоб зробити справу!

Навіть на користь складніших моделей, таких як приховане розподілення Діріхле (LDA), що використовується в машинному навчанні. А деякі моделі по суті є баєсами, наприклад, такі, що базуються на процесах Діріхле .


6

Ми могли б назавжди сперечатися про основи умовиводу для захисту обох підходів, але дозвольте запропонувати щось інше. причина на користь байєсівського аналізу над класичним показана чітко, як обидва підходом угоди з прогнозом. Припустимо, що у нас є звичайний умовно-ідентичний випадок. Класично визначається щільність прогнозування, що підключає значення оцінки параметра в умовну щільність . Ця класична прогностична щільність не враховує невизначеності оцінкиpracticalθ^=θ^(x1,,xn)ΘfXn+1Θ(xn+1θ)fXn+1Θ(xn+1θ^)θ^: дві рівні точки оцінки з абсолютно різними довірчими інтервалами дають вам однакову прогнозовану щільність. З іншого боку, байєсівська прогностична щільність враховує невизначеність щодо параметра, враховуючи інформацію у вибірці спостережень, автоматично, оскільки

fXn+1X1,,Xm(xn+1x1,,xn)=fXn+1Θ(xn+1θ)π(θx1,,xn)dθ.

6
Варто зазначити, що в умовах лінійної регресії з нормальними помилками, періодичні інтервали прогнозування базуються на ключовій статистиці, а не на плазмових оцінниках і ідентичні байєсівським інтервалам під типовими неінформативними пріорами (спільно плоскі на s і ). l o g ( σ 2 )βlog(σ2)
Циан

Пов'язане з коментарем @ Cyan.

4

Є кілька причин:

  1. ±SE
  2. Великі властивості вибірки, як правило, повністю ідентичні деякому відповідному періодичному підходу.
  3. Часто виникає значне небажання погоджуватися з будь-якими пріоритетами, незалежно від того, наскільки насправді ми знаємо, через страх бути звинуваченим у тому, що вони "не є об'єктивними". Використовуючи неінформативні пріори ("немає пріорів"), можна зробити вигляд, що такого питання немає, що дозволить уникнути критики з боку деяких рецензентів.

Тепер щодо недоліків використання неінформативних пріорів, починаючи з того, що, на мою думку, є найважливішим, а потім рухатися до деяких також досить важливих технічних аспектів:

  1. Інтерпретація того, що ви отримуєте, - це, чесно кажучи, так само, як і для частого виведення. Ви не можете просто перекреслити свій частолістський максимум імовірності як байєсівський максимальний a-posteriori висновок і стверджувати, що це звільняє вас від будь-яких турбот щодо багаторазового порівняння, багаторазового перегляду даних і дозволяє інтерпретувати всі твердження з точки зору ймовірності того, що певна гіпотеза правда. Зрозуміло, помилки I типу тощо - це часті концепції, але ми, як учені, повинні дбати про те, щоб заявляти помилкові твердження, і ми знаємо, що виконання вищезазначених проблем спричиняє проблеми. Багато цих питань відходять (або, принаймні, набагато менше проблем), якщо ви вбудовуєте речі в ієрархічну модель / робите щось емпіричне Байєса, але це, як правило, зводиться до неявного генерування пріорів за допомогою процедури аналізу, включаючи основу для свого попереднього у вашу модель (а альтернативою цьому є явне формулювання пріорів). Ці міркування часто ігноруються, на мою думку, здебільшого, щоб провести байєсівське хакерство (тобто ввести множинність, але проігнорувати це), з фіговим листом виправдання, що це не проблема, коли ви використовуєте байєсівські методи (опускаючи всі умови, які б повинні бути виконані).
  2. Що стосується більш "технічної" сторони, неінформативні пріори є проблематичними, тому що вам не гарантовано належне заднє. Багато людей прилаштовували байєсівські моделі з неінформативними пріорами і не усвідомлювали, що задні не є правильними. В результаті були створені зразки MCMC, які по суті були безглуздими.

Останній пункт - аргумент для переваги досить розпливчастих (або трохи слабкіших інформативних) пріорів, які забезпечують належне заднє. Справді, іноді складно взяти з них вибірку, і важко помітити, що не було досліджено цілу задню частину. Однак у багатьох галузях було показано, що байєсівські методи з невиразними (але належними) пріорами мають справді хороші властивості невеликих зразків, і ви, безумовно, можете бачити це як аргумент для їх використання, хоча з дещо більшими даними навряд чи буде будь-яка різниця проти методів з неінформативними пріорами.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.