Перелік ситуацій, коли байєсівський підхід простіший, практичніший або зручніший


63

Було багато дебатів у рамках статистики між байєсами та відвідувачами. Я, як правило, вважаю це досить відвертим (хоча я думаю, що він затих). З іншого боку, я зустрів кількох людей, які цілком прагматично поглядають на це питання, кажучи, що іноді зручніше проводити аналіз частотизму, а іноді простіше провести байєсівський аналіз. Я вважаю цю перспективу практичною і освіжаючою.

Мені здається, було б корисно скласти список таких випадків. Оскільки статистичних аналізів занадто багато, і тому, що я вважаю, що зазвичай більш практичним є проведення частотистського аналізу (кодування t-тесту в WinBUGS значно більше задіяне, ніж єдиний виклик функції, необхідний для виконання версії на основі частотистів в R , наприклад), було б непогано скласти список ситуацій, коли байєсівський підхід простіший, практичніший та / або зручніший, ніж частофілістський підхід.


(Два відповіді, які мене не цікавлять, це: "завжди" і "ніколи". Я розумію, що у людей є думка, але, будь ласка, не передавайте їх сюди. Якщо ця тема стане місцем дрібної сварки, я, ймовірно, видаляю Моя мета тут - розробити ресурс, який буде корисний аналітику, який виконує завдання, а не сокиру, яку слід подрібнити.)

Люди можуть запропонувати більше, ніж один випадок, але, будь ласка, використовуйте окремі відповіді для цього, щоб кожну ситуацію можна було оцінити (проголосувати / обговорити) індивідуально. У відповідях слід перелічити: (1) який характер ситуації, і (2) чому байєсівський підхід у цьому випадку простіший. Якийсь код (скажімо, у WinBUGS), який демонструє, як би робився аналіз та чому байєсівська версія є більш практичною, був би ідеальним, але я очікую, що він буде занадто громіздким. Якщо це можна зробити легко , я був би вдячний, але , будь ласка , включають в себе , чому так чи інакше.

Нарешті, я визнаю, що я не визначив, що означає "простіший" підхід, ніж інший. Правда в тому, що я не зовсім впевнений, що він повинен означати, щоб один підхід був більш практичним, ніж інший. Я відкритий для різних пропозицій, просто вкажіть своє тлумачення, коли ви пояснюєте, чому байєсівський аналіз зручніший у ситуації, про яку ви обговорюєте.


7
Багаторівневе моделювання, безумовно, простіше для байесів, особливо концептуально.
ймовірністьлогічний

Це може не сподобатися питаючому, але немає ніякого обходу, щоб насправді замислитись і зрозуміти, що насправді роблять умовиводи або способи моделювання, і як їх інтерпретувати. Мало сенсу шукати, що простіше, коли вони досягають різних цілей.

1
Мені добре з порадою чітко подумати про те, що ви намагаєтеся робити і як працюють аналізи, @Mayo. Я дав цю пораду сам ;-). Мені також знайома думка про те, що байєсівський та частістський аналізи роблять різні припущення щодо природи ймовірності. Однак, як я зазначаю у запитанні, я зустрів декількох людей (тобто, докторів статистики, які досить добре розуміють проблеми), які кажуть, що бувають випадки, коли вони є досить схожими, і що 1 зручніше. Інші відповіді демонструють, що можна навести такі приклади. Я хотів би побачити будь-які додаткові випадки, про які ви знаєте.
gung - Відновіть Моніку

Цікаво - коли ви говорите, що "частотний аналіз є більш практичним", ви говорите про програмне забезпечення - наприклад, використання lm ()R в простоті використання? Або є щось інше?
ймовірністьлогічний

@probabilityislogic, по суті. Мій приклад - це використання t.test()на відміну від кодування байєсівського тесту в WinBUGS, що вимагає набагато більше коду. Можливо, замість "більш практичного" я мав би сказати "легше".
gung - Відновіть Моніку

Відповіді:


26

(1) У контекстах, коли функція вірогідності є незмінною (принаймні чисельно), використання байєсівського підходу за допомогою приблизного байєсівського обчислення (ABC) отримало позицію перед деякими конкурентами, які часто зустрічаються, такими як складова ймовірність ( 1 , 2 ) або емпірична ймовірність, оскільки це, як правило, легше здійснити (не обов'язково правильно). Завдяки цьому використання АВС стало популярним у районах, де зазвичай трапляються непереборні ймовірності, такі як біологія , генетика та екологія . Тут ми могли б згадати океан прикладів.

Деякі приклади непереборних ймовірностей є

  • Накладені процеси. Кокс і Сміт (1954) запропонували модель в контексті нейрофізіології, яка складається з накладених точкових процесів. Наприклад, розглянемо час між електричними імпульсами, що спостерігаються в деякій частині мозку, які випромінювались декількома нейронами протягом певного періоду. Цей зразок містить неідентичні спостереження, що ускладнює побудову відповідної ймовірності, ускладнюючи оцінку відповідних параметрів. Нещодавно в цій роботі було запропоновано часткове рішення частотизму . Впровадження підходу ABC також нещодавно вивчено, і його можна знайти тут .N

  • Популяційна генетика - ще один приклад моделей, що призводять до непереборних ймовірностей. У цьому випадку внутрішньовизнаність має різний характер: ймовірність виражається в багатовимірному інтегралі (іноді розмірності ), який би знадобився пару десятків років, щоб лише його оцінити в одній точці. Мабуть, ця територія є штаб-квартирою ABC.1000+


1
Ці чудові! Чи можете ви розділити їх на 2 відповіді (щоб я міг вас подякувати двічі ;-), і надати лише один, типовий (іграшковий) приклад? Дякую.
gung - Відновити Моніку

2
@Procrastinator Не могли б ви детальніше розібратися, чому в деяких контекстах вірогідність є непереборною. Враховуючи те, що ви згадуєте біологію, генетику та екологію, я думаю, що це пов'язано зі складними залежностями між параметрами. Я думаю, що це було б особливо корисно для людей, не знайомих з байєсівським аналізом (з яких я є), особливо з огляду на те, що сторінка вікіпедії на ABC, на яку ви посилаєтесь, не містить багато контексту. Спасибі
Антуан Вернет

15

У міру вдосконалення програмного забезпечення Bayesian проблема "легшого застосування" стає суперечкою. Програмне забезпечення Bayesian стає пакетованим у більш легких та легших формах. Нещодавній випадок - із статті під назвою " Байєсова оцінка" замінює тест t . Наступний веб-сайт містить посилання на статтю та програмне забезпечення: http://www.indiana.edu/~kruschke/BEST/

Уривок із вступу до статті:

... у деяких людей складається враження, що висновки NHST та байєсівських методів, як правило, узгоджуються в простих ситуаціях, таких як порівняння двох груп: "Таким чином, якщо ваш головний цікавий питання можна просто висловити у формі, придатній для тестування, скажіть, , насправді не потрібно намагатися застосувати повну байєсівську техніку до такої простої проблеми »(Брукс, 2003, с. 2694). Ця стаття, навпаки, показує, що оцінка параметрів Байєса дає набагато багатшу інформацію, ніж тест NHST t, і що її висновки можуть відрізнятися від висновків тесту NHST t. Рішення, що базуються на байєсівській оцінці параметрів, є більш обґрунтованими, ніж рішення, засновані на NHST, незалежно від того, згодні чи ні, прийняті двома методами


10
Я збираю вашу відповідь або завжди, або "це буде завжди скоро". Це відповідь байєсівського партизана.
gung - Відновіть Моніку

3
А ось і онлайн-реалізація javascript в програмі Kruschke's BEST. Байєсівський аналіз у браузері :) sumsar.net/best_online
Расмус Бет

13

(2) Моделі напруженості. Використання моделей міцності на напругу користується популярністю в надійності. Основна ідея полягає в оцінці параметра де і - випадкові величини. Цікаво, що обчислення ймовірності профілю за цим параметром є загалом важким (навіть чисельним), за винятком деяких іграшкових прикладів, таких як експонентний або звичайний випадок. З цієї причини слід враховувати спеціальні періодичні рішення, такі як емпірична ймовірність ( дивθ=P(X<Y)XY) або довірчі інтервали, побудова яких складна також у загальних рамках. З іншого боку, використання байєсівського підходу дуже простий, враховуючи, що якщо у вас є вибірка заднього розподілу параметрів розподілів і , то ви можете легко перетворити їх у вибірку задньої частини .XYθ

Нехай - випадкова величина з щільністю та розподілом, заданою відповідно та . Аналогічно, нехай - випадкова величина з щільністю і розподілом, заданою відповідно і . ТодіXf(x;ξ1)F(x;ξ1)Yg(y;ξ2)G(y;ξ2)

()θ=F(y;ξ1)g(y;ξ2)dy.

Зауважте, що цей параметр є функцією параметрів . У експоненціальних та нормальних випадках це можна виразити у закритій формі ( див. ), Але це взагалі не так (див. Приклад у цій роботі ). Це ускладнює обчислення ймовірності профілю і, як наслідок, класичного інтервалу для цього параметра. Основну проблему можна узагальнити так: "Параметр, що цікавить, - це невідома / складна функція моделі-параметрів, і тому ми не можемо знайти репараметрізацію, що включає параметр, що цікавить".θ(ξ1,ξ2)θ

З байєсівської точки зору це не проблема, враховуючи, що якщо у нас є вибірка із заднього розподілу , то ми можемо просто ввести ці зразки в , щоб отримати зразок заднього з і забезпечити інтервал виведення для цього параметра.( ) θ(ξ1,ξ2)()θ


4
+1 до обох ваших відповідей - це цікаві приклади. Ви, здається, припускаєте, що частістське рішення повинно базуватися на вірогідності, здавалося б, ігноруючи непараметричні методи. У цьому конкретному випадку непараметричні частістські методи глави 5 у книзі, які ви пов’язали, здаються мені принаймні такими ж простими, як і байєсовські методи.
MånsT

@ MånsT Добре. Дійсно, ця відповідь фокусується на байєсівському та ймовірному висновку. Я писав відповідь деякий час тому на непараметричне вирішення цієї проблеми, яке, як ви зазначаєте, так само просто, як і байєсівський підхід.

@ MånsT & Procrastinator, я також підтримав це. Мені незрозуміло, що саме "найпростіший" повинен означати в контексті цього питання / коментарів, зроблених мені протягом багатьох років, що це спонукало. В основному я хотів виключити відповіді, коли аналітик має теоретичну позицію, що завжди краще з причин, не пов'язаних із ситуацією. Така позиція, безумовно, є виправданою, і в Інтернеті є багато місць для перегляду таких аргументів (включаючи деякі з резюме), але з цього приводу я вважав, що було б цікаво мати місце, де люди перераховують випадки, коли вони буде використовувати інше і чому.
gung - Відновіть Моніку

13

Я навчаюсь частолістській статистиці (фактично економетрика), але ніколи не мав конфронтаційної позиції до байєсівського підходу, оскільки моя точка зору полягає в тому, що філософське джерело цієї "епічної" битви було принципово неправильним з самого початку (я ефір мої погляди тут ). Насправді я планую в найближчому майбутньому також навчитись байєсівському підходу.

Чому? Оскільки один із аспектів частотистської статистики, який мене найбільше захоплює як математичне та концептуальне починання, водночас найбільше турбує мене: асимптотика розміру вибірки. Принаймні, в економетрії майже немаєСерйозна стаття сьогодні стверджує, що будь-який з різних оцінювачів, які зазвичай застосовуються в економетрії частолістських, має будь-які бажані властивості "малого зразка", які ми хотіли б від оцінювача. Всі вони покладаються на асимптотичні властивості, щоб виправдати їх використання. Більшість тестів, що використовуються, мають бажані властивості лише асимптотично ... Але ми вже не в "z-land / t-land": весь складний (і грізний) апарат сучасних частотистських оцінок і умовиводів також дуже ідіосинкратичний - це означає, що Іноді, зразок laaaaaaaaa ... aaaarge дійсно потрібен для того, щоб ці дорогоцінні асимптотичні властивості виникли і сприятливо вплинули на оцінки, отримані за допомогою оцінювачів, як це було доведено різними моделюваннями. Значить десятки тисяч спостережень - які, хоча вони стають доступними для деяких галузей економічної діяльності (наприклад, ринок праці або фінансових ринків), є й інші (на кшталт макроекономіки), у яких вони ніколи не зробляться (принаймні, протягом мого періоду життя). І мене це дуже турбує, оскільки це дає справді отримані результатиневизначені (не лише стохастичні).

Баєсова економетрика для малих проб не покладається на асимптотичні результати. "Але вони покладаються на суб'єктивне попереднє !" це звичайна відповідь ... на яку моя проста, практична відповідь така: "якщо явище старе і вивчене раніше, то попереднє можна оцінити за минулими даними. Якщо явище нове , за іншим, якщо ні суб'єктивними аргументами ми можемо розпочати дискусію про це ?


5
Це важлива перспектива, але зауважте, що існують частістські підходи, які не так покладаються на асимптотику, як, наприклад, симуляція Монте-Карло, тести завантаження та перестановки.
gung - Відновити Моніку

1
І якщо хтось намагається отримати найкраще з обох світів? Спроба: Bartels, Christian (2017): Використання попередніх знань у тестах частості. фішаре. doi.org/10.6084/m9.figshare.4819597.v3 Отримано: 17 18 травня 10 травня 2017 р. (GMT)
користувач36160

13

Це пізня відповідь, проте я сподіваюся, що це щось додасть. Я пройшов навчання в галузі телекомунікацій, де більшість часу ми використовуємо байєсівський підхід.

Ось простий приклад: припустимо, ви можете передавати чотири можливі сигнали +5, +2.5, -2.5 та -5 вольт. Один із сигналів з цього набору передається, але сигнал пошкоджується гауссовим шумом до того моменту, коли він досягне кінця прийому. На практиці сигнал також ослаблений, але ми відкинемо це питання для простоти. Питання: Якщо ви знаходитесь в кінці прийому, як ви сконструюєте детектор, який підкаже, який з цих сигналів був спочатку переданий?

Ця проблема, очевидно, лежить у галузі тестування гіпотез. Однак ви не можете використовувати p-значення, оскільки тестування значимості потенційно може відхилити всі чотири можливі гіпотези, і ви знаєте, що один із цих сигналів був фактично переданий. Ми можемо використовувати метод Неймана-Пірсона для конструювання детектора в принципі, але цей метод найкраще працює для бінарних гіпотез. Для декількох гіпотез стає занадто незграбно, коли вам потрібно мати справу з низкою обмежень для помилкових ймовірностей тривоги. Проста альтернатива дається тестуванням гіпотез Байеса. Будь-який із цих сигналів міг бути обраний для передачі, тому попередній є однозначним. У таких неправдоподібних випадках метод зводиться до вибору сигналу з максимальною вірогідністю. Цей метод може бути приємний геометричної інтерпретації: виберіть сигнал, який трапляється найближчим до прийнятого сигналу. Це також призводить до поділу простору рішення на ряд областей прийняття рішення, таким чином, якщо отриманий сигнал повинен потрапити в певний регіон, то вирішується, що гіпотеза, пов'язана з цією областю рішення, є істинною. Таким чином, конструкція детектора спрощується.


4
Дякуємо, що поділилися з нами своїм досвідом. Ласкаво просимо на наш сайт!
whuber

4

Так звані "частотні" статистичні тести, як правило, еквівалентні принципово більш складному баєсовському підходу за певних припущень. Якщо ці припущення застосовні, то будь-який підхід дасть однаковий результат, тому безпечно використовувати простіше застосувати тест частота. Байєсівський підхід взагалі більш безпечний, тому що робить припущення явними, але якщо ви знаєте, чим займаєтеся, тест на частоту лікаря часто так само хороший, як байєсівський підхід, і зазвичай його легше застосувати.


1
Дякую. Ви зазначаєте, що тести на частоту допомогу "зазвичай застосовуються легше". Чи знаєте ви конкретну ситуацію, коли це не так (якщо F лише "типово" простіше, мають бути такі випадки). Наразі ми можемо відкласти питання, який підхід був би "безпечніший", і просто зосередитись на більш легкій застосуванні частини.
gung - Відновіть Моніку

4

(Я спробую, що, на мою думку, було б найбільш типовим видом відповіді.)

Скажімо, у вас є ситуація, коли є кілька змінних і одна відповідь, і ви знаєте добру справу про те, як одна з змінних повинна бути пов’язана з відповіддю, але не стільки з іншими.

У такій ситуації, якби ви провели стандартний множинний регресійний аналіз, попередні знання не враховувалися б. Після цього може бути проведений метааналіз, який може бути цікавим під час висвітлення того, чи відповідає поточний результат іншим висновкам та може дати дещо більш точну оцінку (включивши попередні знання в цей момент). Але такий підхід не дозволив би тому, що було відомо про цю змінну, впливати на оцінки інших змінних.

Інший варіант полягає в тому, що можна було б кодувати та оптимізувати свою власну функцію, яка фіксує взаємозв’язок із змінною, про яку йдеться, та знаходить значення параметрів для інших змінних, які максимально збільшують ймовірність даних, наданих цим обмеженням. Проблема тут полягає в тому, що хоча перший варіант не обмежує адекватно бета-оцінку, цей підхід її обмежує.

Можливо, можна створити який-небудь алгоритм, який би вирішував ситуацію більш доцільно, такі ситуації здаються ідеальними кандидатами для байєсівського аналізу. Кожен, хто догматично не проти байєсівського підходу, повинен бути готовий спробувати його у подібних випадках.


2

Область досліджень, в якій байєсівські методи надзвичайно прості, а методам частотології надзвичайно важко слідувати, - це оптимальний дизайн .

У простому варіанті проблеми ви хочете максимально ефективно оцінити один коефіцієнт регресії логістичної регресії. Вам дозволяється взяти один зразок з рівним тому, що ви хочете, оновіть свою оцінку для а потім виберіть наступний тощо, поки ваша оцінка для відповідає деякому рівню точності. β x ( 2 ) βx(1)βx(2)β

Хитра частина полягає в тому, що справжнє значення буде диктувати, який оптимальний вибір . Ви можете скористатися поточною оцінкою of з розумінням того, що ви ігноруєте помилку в . Таким чином, ви можете отримати лише м'яко недооптимальний вибір урахуванням розумної оцінки .х ( я ) & beta ; & beta ; & beta ; х ( я ) & beta ;βx(i)β^ββ^x(i)β

Але як бути, коли ви вперше починаєте? Ви не маєте частотної оцінки , оскільки у вас немає даних . Таким чином, вам потрібно буде зібрати деякі дані (безумовно, дуже неоптимально), без великої кількості настановних теорій, щоб сказати, що вибрати І навіть після декількох виборів ефект Хаука-Доннера все ще може заважати вам мати певну оцінку . Якщо ви читаєте в літературі про частоту лікарів про те, як боротися з цим, то в основному "випадковим чином вибирайте , поки не буде значення таке, що є 0 і 1 вище і нижче цієї точки" (що означає "Хок-Доннер" ефект не відбудеться).β x xββxx

З точки зору Байєса, ця проблема дуже проста.

  1. Почніть попереднє переконання про .β
  2. Знайдіть який матиме максимальний вплив на задній розподілx
  3. Вибірка, використовуючи значення вибране з (2), і оновіть вашу задню частинуx
  4. Повторіть кроки 2 і 3, поки не буде досягнуто потрібної точності

Література з частотних досліджень буде нахилятися назад, щоб ви спробували знайти розумні значення для яких можна сподіватися взяти зразки та уникнути ефекту Хока-Доннера, щоб ви могли почати брати неоптимальні зразки ... тоді як метод Баєса все дуже просто і враховує невизначеність параметра, що цікавить.x


2

Мабуть, один з найбільш простих і поширених випадків, коли байєсівський підхід простіший - це кількісне визначення невизначеності параметрів.

У цій відповіді я не маю на увазі інтерпретацію довірчих інтервалів проти достовірних інтервалів. На даний момент припустимо, що користувач чудово використовує будь-який метод.

З урахуванням сказаного, в байесівських рамках це прямо вперед; це гранична дисперсія задньої частини для будь-якого окремого параметра, що цікавить. Якщо припустити, що ви можете зробити вибірку з задньої частини, то просто візьміть свої зразки та обчисліть свої відхилення. Готово!

У випадку з частою хворобою це, як правило, лише в деяких випадках, і справжній біль, коли його немає. Якщо у нас є велика кількість вибірок порівняно з невеликою кількістю параметрів (і хто насправді знає, наскільки достатньо великий), ми можемо використовувати теорію MLE для отримання CI. Однак ці критерії не завжди дотримуються, особливо для цікавих випадків (тобто моделей зі змішаними ефектами). Іноді ми можемо використовувати завантажувальний інструмент, але іноді не можемо! У тих випадках, коли ми не можемо, це може бути дуже важко отримати оцінки помилок і часто вимагають трохи кмітливості (тобто, формула Грінвуда для виведення кривих SE для кривих Каплана Мейєра). "Використання деякої кмітливості" - це не завжди надійний рецепт!

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.