Куди пішли частістсько-байєські дебати?


59

Світ статистики був поділений між відвідувачами та байєсами. У наші дні, здається, кожен робить і те і інше. Як це може бути? Якщо різні підходи підходять для різних проблем, чому батьки-засновники статистики цього не бачили? Як варіант, чи виграли дискусії частоталісти і справжні суб'єктивні байєси перейшли до теорії прийняття рішень?


13
Я висловив це за умови, що навряд чи знайдеться одна авторитетна чи найкраща відповідь. (Не соромтеся переконувати будь-який мод в іншому випадку, якщо ви не погоджуєтесь!) Можна стверджувати про закриття питання на тій підставі, що це потенційно спірне, але (ІМХО) це тематично та цікаво. Однак будь-які суперечливі, полемічні чи непідтримувані відповіді, якщо вони трапляться, будуть видалені без будь-яких додаткових пояснень.
whuber

Відповіді:


58

Я насправді м'яко не погоджуюся з цим припущенням. Всі є байєсами, якщо вони дійсно мають розподіл ймовірностей, який їм передають як попереднє. Біда виникає, коли вони цього не роблять, і я думаю, що на цю тему все ще є досить непоганий розрив.

Сказавши це, я погоджуюся, що все більше людей менше схильні боротися зі святими війнами і просто продовжують робити те, що здається доцільним у будь-якій ситуації.

Я б сказав, що в міру розвитку професії обидві сторони зрозуміли, що в підходах іншої сторони є заслуги. Байєси зрозуміли, що для оцінки того, наскільки добре будуть виконувати байєсівські процедури, якщо їх застосовувати знову і знову (наприклад, чи справді цей 95% достовірний інтервал (CI) насправді містить справжній параметр приблизно в 95% часу?), Вимагає частого прогнозу. Без цього немає калібрування цього "95%" до будь-якого реального числа. Міцність? Побудова моделі за допомогою ітеративної підгонки тощо? Ідеї, що з’явилися у частістському світі та були адаптовані байєсами, починаючи з кінця 1980-х років. Часті фахівці зрозуміли, що регуляризація - це добре, і вживають її досить часто в наші дні - і байесовські пріори можна легко інтерпретувати як регуляризацію. Непараметричне моделювання за допомогою кубічних сплайнів із штрафною функцією? Ваше покарання є моїм попереднім! Тепер ми можемо все ладити.

Інший основний вплив, я вважаю, є приголомшливим покращенням доступності високоякісного програмного забезпечення, яке дозволить вам швидко робити аналіз. Це складається з двох частин - алгоритми, наприклад, вибірки Гіббса та Metropolis-Hastings, а також саме програмне забезпечення, R, SAS, ... Я можу бути більш чистим байесівцем, якби мені довелося записати весь код у C (я просто я б не мав часу спробувати що-небудь інше), але, як це є, я буду використовувати gam в пакеті mgcv в R будь-який час, коли моя модель виглядає так, що я можу вписати її в цю рамку, не надто сильно стискаючи, і я кращий статистик для цього. Ознайомлення з методами опонента та усвідомлення того, скільки зусиль він може заощадити / кращої якості, який він може забезпечити, щоб використовувати їх у деяких ситуаціях, навіть якщо вони можуть не вписатись на 100% у ваші рамки за замовчуванням для роздуму над проблемою,


5
@Dikran: Я погоджуюсь із застереженням, що я б особисто посперечався з вибором слова противника . :)
кардинал

2
@cardinal Я не знаю, відмовити своїх колег може бути весело (доки ви обидва знаєте краще, ніж насправді це означає
!;

3
@Dikran - Дякую за розуміння! Я не відчував себе "опонентом" - це саме правильне слово, але я все-таки застряг там, частково просто заради розваги, а почасти тому, що не міг придумати кращого, який все ще зберігав певне відчуття протистояння.
jbowman

5
@jbowman: Зауважте, що байєсівська статистика a-la Good, Lindley або DeFinetti означає, що попереднє є суб'єктивним / психічним, а не об'єктивним / фізичним. З цієї причини я б не погодився з: "... кожен баєс". Ось чому Роббінсу довелося вживати термін "Емпіричний Байєс" при впровадженні "романної" ідеї частеристського пріору. Я погоджуюся, що сьогодні, використовуючи схему вибірки на багаторівневому рівні, маючи, таким чином, попередню частоту, досить було б кваліфікуватись як "байєсівська статистика".
JohnRos

2
@JohnRos - те, про що я думав, було більш класичним: "яка ймовірність наявності у вас туберкульозу, враховуючи те, що ви виявили позитивний на тест на туберкульоз?" ситуація. (Я припускаю, що) небагато статистичних статистик заперечують проти використання будь-якого відповідного базового рівня туберкульозу як попередньої ймовірності та оновлення його з імовірністю тесту. Звичайно, вони все-таки заперечували б проти того, щоб вони були суб'єктивними, і я міг бачити лінію аргументації з іншого боку, яка стверджує, що вона є суб'єктивною, незважаючи на дані, що стоять за нею, тому прийнято пункт (+1).
jbowman

35

На це складне питання відповісти. Кількість людей, які справді роблять те і інше, все ще дуже обмежена. Жорсткі байєси зневажають користувачів основної статистики за їх використання -значень, безглуздої, внутрішньо непослідовної статистики для байесів; а основні статистики просто не знають баєсівських методів достатньо добре, щоб коментувати їх. У світлі цього ви побачите багато критики тестування значимості нульової гіпотези в літературі Байєса (що стосується майже чистої журналів біології чи чистої психології), без жодної відповіді від мейнстрімерів.p

Існують суперечливі прояви щодо того, "хто виграв дебати" у професії статистики. З одного боку, склад відділу середньої статистики полягає в тому, що в більшості місць ви знайдете 10-15 мейнстрімерів проти 1-2 баєсів, хоча деякі відділи є суто байесівськими, без мейнстрімерів, за винятком, мабуть, консалтингових посад (Гарвард, герцог, Карнегі Меллон, Британська Колумбія, Монреаль у Північній Америці; я менш знайомий з європейською сценою). З іншого боку, ви побачите, що в таких журналах, як JASA або JRSS, ймовірно, 25-30% статей є байєсівськими. Певним чином, байєсівський ренесанс може бути чимось на зразок сплеску паперів ANOVA в 1950-х роках: тоді люди думали, що майже будь-яка проблема статистики може бути охарактеризована як проблема ANOVA; негайно,

Я відчуваю, що прикладні області не переймаються з'ясуванням філософських деталей, а просто йдуть з тим, що легше працювати. Байєсівська методологія просто занадто проклята складна: крім статистики, ви також повинні навчитися мистецтву обчислення (налаштування вибірки, блокування, діагностика конвергенції, бла-бла-бла) і бути готовим захищати своїх пріорів (якщо ви використовуєте об'єктивні пріори, або ви повинні використовувати інформативні пріори, якщо поле в значній мірі осідає зі швидкістю світла 3e8 м / с, або навіть, чи вибір попереднього впливає на те, чи буде ваш задній стіл правильним чи ні). Тож у більшості застосувань для медичних чи психологічних чи економічних питань ви побачите основні підходи у документах, написаних дослідниками,

Однією з областей, де, на мою думку, байєсівські рамки все ще не вистачають, є модельна діагностика - і це важлива область для практикуючих лікарів. Для діагностики моделі в байєсському світі потрібно скласти більш складний і вибрати те, що краще відповідає байесівському фактору або BIC. Отже, якщо вам не подобається припущення про нормальність для вашої лінійної регресії, ви можете побудувати регресію з помилками Студента, і нехай дані генерують оцінку ступенів свободи, або ви можете стати фантазією і мати процес Діріхле для вашого терміни помилок і робити кілька стрибків MH між різними моделями. Основним підходом було б побудувати сюжет QQ зі студизованих залишків та видалити залишків, і це, знову ж таки, набагато простіше.

Я редагував розділ книги про це - див. Http://onlinelibrary.wiley.com/doi/10.1002/9780470583333.ch5/summary . Це дуже архетипний документ, в якому дано близько 80 посилань на цю дискусію, які підтримують байєсівську точку зору. (Я попросив автора розширити його в доопрацьованій версії, що про це багато говорить :)). Джим Бергер з Дюка, один з провідних теоретиків байесів, прочитав ряд лекцій і написав низку дуже продуманих статей на цю тему.


14

Існує вагома причина для того, щоб і те і інше було, а саме те, що хороший майстер захоче вибрати найкращий інструмент для вирішення поставленої задачі, а як байєсівський, так і частістський методи мають додатки, де вони є найкращим інструментом для роботи.

Однак часто використовується неправильний інструмент для роботи, оскільки частофілістська статистика більше піддається «підготуванню книги з статистикою», що полегшує їх застосування в науці та техніці, ніж їхні байєсівські колеги, хоча байєсівські методи дають більш прямий відповідь на поставлене питання (яке, як правило, ми можемо зробити з конкретної вибірки даних, що насправді є). Я не дуже прихильний до цього, оскільки підхід «кулінарної книги» призводить до використання статистики без чіткого розуміння того, що ви насправді робите, саме тому такі речі, як помилка p-значення, з’являються знову і знову.

Однак, з часом, програмні засоби для байєсівського підходу покращаться, і вони будуть використовуватися частіше, як справедливо каже jbowman.

Я байєсий за нахилом (це, здається, має набагато більше сенсу для мене, ніж частолістський підхід), проте я в кінцевому підсумку використовую частотистську статистику у своїх роботах, почасти тому, що у мене будуть проблеми з рецензентами, якщо я буду використовувати байєсівську статистику як вони буде "нестандартним".

Нарешті (трохи язиком щоки; о), щоб процитувати Макса Планка "Нова наукова істина не перемагає, переконуючи своїх опонентів і змушуючи їх побачити світло, а скоріше тому, що її опоненти зрештою вмирають, і виростає нове покоління, яке знайоме з цим."


10

Я не думаю, що частоталісти та байєси дають різні відповіді на одні і ті ж запитання. Я думаю, що вони готові відповідати на різні запитання . Тому я не думаю, що має сенс багато говорити про виграш однієї сторони або навіть говорити про компроміс.

Розглянемо всі питання, які ми можемо хотіти задати. У багатьох є просто неможливі запитання ("Яке справжнє значення ?"). Більш корисно розглянути підмножину цих питань, на які можна відповісти, враховуючи різні припущення. Більша підмножина - це питання, на які можна відповісти, де ви дозволяєте використовувати пріорі. Назвіть цей набір BF. Існує підмножина BF - це набір питань, які не залежать від жодного попереднього. Назвіть цей другий підмножина F. F - це підмножина BF. Визначте B = BF \ B.θ

Однак ми не можемо вибрати, на які питання відповісти. Для того, щоб зробити корисні умовиводи про світ, нам іноді доводиться відповідати на запитання, які знаходяться в B, а це означає використовувати попередній.

В ідеалі, даючи оцінку, ви б провели ретельний аналіз. Ви можете скористатися попереднім, але також було б здорово, якщо ви зможете довести приємні речі щодо свого оцінювача, які не залежать від жодного попереднього. Це не означає, що ви можете скинути попереднє, можливо, справді цікаві питання потребують попереднього.

Усі погоджуються, як відповісти на запитання у F. Побоювання, чи справді «цікаві» питання є у F чи B?

Приклад: пацієнт ходить до лікаря і є здоровим (Н), або хворим (S). Ми проводимо тест, який поверне позитивне (+) або негативне (-). Тест ніколи не дає помилкових негативів - тобто . Але іноді це дасть помилкові позитиви -P(|S)=0P(+|H)=0.05

У нас є шматок картки, і машина для тестування напише + або - на одну сторону картки. Уявіть собі, якщо ви хочете, що у нас є оракул, який якимось чином знає правду, і цей оракул записує справжній стан, H або S, на іншій стороні картки, перш ніж покласти картку в конверт.

Як статистично навчений лікар, що можна сказати про карту в конвелопі, перш ніж відкрити картку? Можна зробити наступні твердження (вони наведені на F вище):

  • Якщо S на одній стороні картки, то інша сторона буде +. P(+|S)=1
  • Якщо Н, то інша сторона буде + з 5% вірогідністю, - з 95% ймовірністю. P(|H)=0.95
  • (Підведення двох останніх точок) ймовірність того, що обидві сторони матчу становить щонайменше 95%. P((,S)(+,H))0.95

Ми не знаємо, що таке або . Ми справді не можемо відповісти на це без якогось пріоритету для . Але ми можемо зробити заяви про суму цих двох ймовірностей.P((,S))P((+,H))P(S)

Це наскільки ми можемо зайти так далеко. Перш ніж відкрити конверт , ми можемо зробити дуже позитивні твердження щодо точності тесту. Існує (принаймні) 95% ймовірність того, що результат тесту відповідає істині.

Але що відбувається, коли ми насправді відкриємо картку? Враховуючи, що результат тесту є позитивним (або негативним), що можна сказати про те, здорові вони чи хворі?

Якщо тест позитивний (+), ми нічого не можемо сказати. Можливо, вони здорові, а може й ні. Залежно від нинішньої поширеності захворювання ( ), можливо, у більшості пацієнтів, які випробовують позитивні, здорові, або може бути, що більшість хворих. Ми не можемо ставити жодних меж на цьому, не спершу дозволяючи собі поставити деякі межі на .P(S)P(S)

У цьому простому прикладі зрозуміло, що всі, хто має негативний результат тесту, здорові. Неправдивих негативів немає, і тому кожен статистик із задоволенням відправить цього пацієнта додому. Тому платити за консультацію статистику немає сенсу, якщо результат тесту не був позитивним .

Три точки кулі вище є правильними та досить простими. Але вони також марні! Дійсно цікавим питанням у цій загальновизнаній моделі є:

P(S|+)

і на це не можна відповісти без (тобто попереднього або принаймні деяких меж попереднього)P(S)

Я не заперечую, що це, можливо, спрощена модель, але вона демонструє, що якщо ми хочемо зробити корисні заяви про здоров'я цих пацієнтів, ми повинні почати з певної віри про їх здоров'я.


2
Як ви узгоджуєте твердження "Якщо , то інша сторона буде з імовірністю , з вірогідністю. " з вашим попереднім твердженням, що в абзаці, що починається "Приклад:"? H+5%95%P(|S)=0.95P(|S)=0
Діліп Сарват

1
Друкарська помилка. Дякуємо, що зловили це @DilipSarwate. Я мав на увазі сказати , а неP(|H)=0.95P(|S)=0.95
Аарон Макдейд

2
Зауважте, що ми можемо бути більш точними, ніж ви стверджуєте, не знаючи , і сказати, що тест збільшує шанси захворіти проти здорового на разів . Однак, з точки зору прийняття рішень (наприклад, лікувати чи не лікувати), ми вимагаємо (і функцію втрати). P(S)+20P(S)
ймовірність

1
Чи було б справедливо сказати, якщо оцінюється за результатами попередніх опитувань населення (порівняно з освіченою здогадкою), то важлива частолістська сторона статистики, особливо якщо дослідники хочуть оцінити точність ? P ( S )P(S)P(S)
RobertF

6

Як побачите, триває досить багато часто-байесівських дискусій. Насправді я думаю, що це гарячіше, ніж будь-коли, і менш догматично. Можливо, вам буде цікавий мій блог: http://errorstatistics.com


2
Я знайомий з вашою роботою через твори Shalizi & Gelman. Я остаточно піду за блогом. І все ж мені цікаво, чи «Байєс» Гельмана такий самий, як «Байєс»
Дефінетті

1

Багато людей (поза експертами-спеціалістами), які вважають, що вони часто, є насправді баєсами. Це робить дебати трохи безглуздими. Я думаю, що байєсіанство перемогло, але все ж є багато баєсів, які вважають, що вони часто. Є люди, які думають, що вони не використовують пріорів, і тому вони вважають, що вони часто. Це небезпечна логіка. Мова йде не стільки про пріорів (рівномірних пріорів чи нерівномірних), реальна різниця більш тонка.

(Я офіційно не у відділі статистики; моє знання - математика та інформатика. Я пишу через труднощі, які я намагався обговорити цю «дискусію» з іншими нестатистами, і навіть з деякою ранньою кар'єрою статистики.)

MLE - насправді байєсівський метод. Деякі люди скажуть: "Я частість, тому що я використовую MLE для оцінки своїх параметрів". Я це бачив у рецензованій літературі. Це нісенітниця і ґрунтується на цьому (несказаному, але мається на увазі) міфі, що частофіліст - це той, хто використовує єдину форму замість нерівномірного попереднього).

Розглянемо малювання єдиного числа із звичайного розподілу із відомим середнім значенням та невідомою дисперсією. Назвіть цю дисперсію .μ=0θ

XN(μ=0,σ2=θ)

Тепер розглянемо функцію ймовірності. Ця функція має два параметри, і і вона повертає ймовірність, задану , .xθθx

f(x,θ)=Pσ2=θ(X=x)=12πθex22θ

Ви можете уявити, як побудувати це в тепловій карті, з на осі x та на осі y, та використовуючи колір (або вісь z). Ось сюжет, з контурними лініями та кольорами.xθ

Карта тепла

По-перше, кілька спостережень. Якщо ви фіксуєте одне значення , ви можете взяти відповідний горизонтальний зріз через теплову карту. Цей фрагмент дасть вам pdf для цього значення . Очевидно, що площа під кривою у цьому зрізі буде 1. З іншого боку, якщо ви фіксуєте одне значення , а потім подивитесь на відповідний вертикальний зріз, то такої гарантії щодо площі під кривою немає. .θθx

Ця різниця між горизонтальними та вертикальними зрізами має вирішальне значення, і я виявив, що ця аналогія допомогла мені зрозуміти частістський підхід до зміщення .

Байєсівський хто - то , хто говорить

Для цього значення x, які значення дають 'досить високе' значення ?.θf(x,θ)

Крім того, байєсівський може включати пріоритет, , але вони все ще говорять про цеg(θ)

для цього значення x, які значення дають досить високе значення ?f ( x , θ ) g ( θ )θf(x,θ)g(θ)

Отже, Байєс виправляє х і дивиться на відповідний вертикальний зріз у цій контурній ділянці (або у варіантному графіку, що включає попередній). У цьому зрізі площа під кривою не повинна бути 1 (як я вже говорив раніше). 95% достовірний інтервал Байєса (CI) - це інтервал, який містить 95% доступної площі. Наприклад, якщо площа дорівнює 2, то площа під байєсівською CI повинна бути 1,9.

З іншого боку, частофіліст буде ігнорувати х і спочатку розглянути питання про виправлення та попросить:θ

Для цього , які значення x найчастіше з'являться?θ

У цьому прикладі з одна відповідь на це питання частолістінгу: "Для даної 95% з'явиться між і . "θ x - 3 N(μ=0,σ2=θ)θx +33θ+3θ

Тож частість більше стосується горизонтальних ліній, що відповідають фіксованим значенням .θ

Це не єдиний спосіб побудувати частолістський CI, він навіть не хороший (вузький), але потерпіть зі мною на мить.

Найкращий спосіб інтерпретувати слово 'інтервал' - це не як інтервал на 1-й рядку, а мислити його як область у вищезгаданій 2-й площині. "Інтервал" - це підмножина двовимірної площини, а не жодної 1-d лінії. Якщо хтось пропонує такий «інтервал», то нам доведеться перевірити, чи «інтервал» дійсний на рівні 95% надійності / надійності.

Частіст перевіряє чинність цього «інтервалу», розглядаючи по черзі кожен горизонтальний зріз і дивлячись на область під кривою. Як я вже говорив, площа під цією кривою завжди буде цілою. Найважливішою вимогою є те, щоб площа у межах «інтервалу» була не менше 0,95.

Байєсів перевірить дійсність, замість того, щоб подивитися на вертикальні фрагменти. Знову площу під кривою буде порівнювати з підмайстром, що знаходиться під інтервалом. Якщо останній становить щонайменше 95% від першого, то "інтервал" є дійсним 95% достовірним інтервалом Байєса.

Тепер, коли ми знаємо, як перевірити, чи певний інтервал є "дійсним", питання полягає в тому, як вибрати найкращий варіант з дійсних варіантів. Це може бути чорним мистецтвом, але, як правило, ви хочете найвужчий інтервал. Обидва підходи тут, як правило, погоджуються - вертикальні зрізи розглядаються, а мета полягає в тому, щоб інтервал був максимально вузьким у межах кожного вертикального фрагмента.

У вищенаведеному прикладі я не намагався визначити найбільш вузький можливий частотистський інтервал довіри. Дивіться коментарі @cardinal нижче для прикладів більш вузьких інтервалів. Моя мета - не знайти найкращі інтервали, а підкреслити різницю між горизонтальним та вертикальним зрізами у визначенні достовірності. Інтервал, який задовольняє умовам 95% частотного довірчого інтервалу, зазвичай не задовольняє умовам 95% достовірного інтервалу Байєса, і навпаки.

Обидва підходи бажають вузьких інтервалів, тобто, розглядаючи один вертикальний зріз, ми хочемо зробити інтервал (1-d) у цьому зрізі максимально вузьким. Різниця полягає в тому, як примусово застосовується 95% - частофіліст дивитиметься лише на запропоновані інтервали, коли 95% площі кожного горизонтального зрізу знаходяться під інтервалом, тоді як байєсівський наполягає на тому, щоб кожен вертикальний зріз був таким, щоб 95% його площі було під інтервал.

Багато нестатистів цього не розуміють, і вони зосереджуються лише на вертикальних зрізах; це робить їх баєсами, навіть якщо вони думають інакше.


3
(-1) Я вважаю, що цей пост показує деякі принципові непорозуміння з кількох питань. Важко знати навіть з чого почати.
кардинал

1
Давайте звернемось до тієї, яка, як видається, становить більшість цієї публікації. У наведеному прикладі і тому це основна величина, заснована на повній достатній статистиці для . CI - той, що задовольняє рівномірно і для всіх можливих реалізацій . Через вищезазначені властивості , це природний кандидат, на якому можна базувати CI. (продовж.) θX2/θχ12θ(θ^,θ^u)thetas ; Х Х 2 / & thetas ;P(θ(θ^,θ^u))=1α θXX2/θ
кардинал

1
(продовження) Один вибір - де позначає й розподілу . Практично будь-який використовує натомість однаково допустимий оскільки він нескінченно вузький і простий у побудові. Однак цей останній інтервал навіть не найкоротший, що можна знайти простою процедурою числення. Підсумовуючи , головна передумова аргументу у відповіді, як видається, повністю пропускає суть. q b b χ 2 1 [ X 2 / q 1 - α / 2 , X 2 / q α / 2 ][X2/q1α,)qbbχ12[X2/q1α/2,X2/qα/2]
кардинал

Привіт @cardinal, я розумію ваші моменти у ваших останніх двох коментарях. Насправді, я вважаю, що ваші моменти відповідають тому, що я сказав :-) Добре, існує ряд різних способів побудови частотистських інтервалів довіри. Ви приймаєте описаний нами метод. І ви (розумно) зазначаєте, що мій метод не є самим вузьким. Я думаю, що ваш перший коментар був не дуже корисним.
Аарон Мак-Дейд

2
@cardinal, по другій думці я погоджуюсь, що кінець моєї відповіді не корисний і в основному невірний, я виправлю це. Це відволікає мою головну точку, яка полягає в тому, що багато людей поза відділом статистики, які мають сильну думку з цього приводу, не оцінюють принципової різниці між двома підходами: обидва підходи виглядають, щоб мати гарну площу під кривою (принаймні 95% ), але різниця полягає в тому, чи потрібно взяти горизонтальний (частота) або вертикальний (байєсівський) зріз через теплову карту. Чи я тут правий, і чи варто тут говорити про це?
Аарон Макдейд
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.