Коли (і чому) баєси відкидають чинні байєсівські методи? [зачинено]


9

З того, що я прочитав, і з відповідей на інші запитання, які я тут задав, багато так званих частістських методів відповідають математично ( мені байдуже, чи відповідають вони філософськи , мені цікаво, чи відповідає він математично) окремим випадкам т.зв. Байєсівські методи (для тих, хто заперечує проти цього, див. Примітку внизу цього питання). Ця відповідь на відповідне запитання (не моє) підтримує такий висновок:

Більшість методів періодики мають байєсівський еквівалент, який за більшості обставин дасть по суті той же результат.

Зверніть увагу, що далі, бути математично однаковим - означає дати той же результат. Якщо ви характеризуєте два методи, за якими можна довести, що вони завжди дають ті самі результати, що й "різні", це ваше право, але це філософське судження, а не математичне та практичне.

Однак багато людей, які описують себе як «байєси», схоже, відмовляються, використовуючи максимальну оцінку ймовірності за будь-яких обставин, навіть якщо це особливий випадок ( математично ) байєсівських методів, оскільки це «метод частістів». Очевидно, байєси також використовують обмежену / обмежену кількість розподілів порівняно з частотаторами, хоча ці розподіли були б математично правильними і з байєсівської точки зору.

Питання: Коли і чому баєси відкидають математично правильні з байєсівської точки зору методи? Чи є обґрунтування цього, яке не є "філософським"?

введіть тут опис зображення

Передумови / контекст: Далі наведено цитати з відповідей та коментарів до попереднього мого питання на CrossValidated :

Математична основа для байесівських та частофілістських дебатів дуже проста. У статистиці Баєса невідомий параметр трактується як випадкова величина; у частотистській статистиці це трактується як фіксований елемент ...

З усього вищесказаного я б зробив висновок, що ( математично кажучи ) байєсівські методи є більш загальними, ніж частотистські, в тому сенсі, що частістські моделі задовольняють всі ті ж математичні припущення, що й байєсівські, але не навпаки. Однак ця сама відповідь стверджувала, що мій висновок із сказаного був невірним (наголос у тому, що далі - мій):

Хоча константа є особливим випадком випадкової величини, я б вагався з висновком, що байєсіанство є більш загальним. Ви б не отримали частолістських результатів від байєсівських, просто згорнувши випадкову змінну до постійної. Різниця більш глибока ...

Переходячи до особистих уподобань ... Мені не подобається, що байєсівська статистика використовує досить обмежений набір доступних дистрибутивів.

Інший користувач у своїй відповіді заявив протилежне, що байєсівські методи є загальнішими, хоча, як не дивно, найкраща причина, яку я міг би знайти, чому це могло бути, було в попередній відповіді, яку дав хтось, який тренувався як частофіліст.

Математичний наслідок полягає в тому, що частоталісти думають, що основні рівняння ймовірності застосовуються лише іноді, а баєси вважають, що вони завжди застосовуються. Тому вони вважають ті самі рівняння правильними, але відрізняються тим, наскільки вони загальні ... Баєсіан суворо загальніший за частотолога. Оскільки може виникнути невизначеність будь-якого факту, будь-якому факту може бути призначена ймовірність. Зокрема, якщо факти, над якими ви працюєте, пов’язані з частотами реального світу (або як щось, що ви прогнозуєте, або як частина даних), то байєсовські методи можуть розглянути і використовувати їх так само, як і будь-який інший факт реального світу. Отже, будь-яка проблема Часто лікарі вважають, що їхні методи застосовуються до байесів, можуть також працювати природним шляхом.

З вищенаведених відповідей у ​​мене складається враження, що існує щонайменше два різні визначення терміна "байєсів", які зазвичай використовуються. Перший я б назвав "математично байєсівським", який охоплює всі методи статистики, оскільки включає параметри, які є постійними RV і ті, які не є постійними RV. Тоді є "культурно-байєсівський", який відкидає деякі "математично байєсівські" методи, оскільки ці методи "часті" (тобто від особистої ворожнечі до параметра, який іноді моделюється як константа або частота). Інша відповідь на вищезазначене питання також, здається, підтримує цю здогадку:

Також слід зазначити, що між моделями, які використовуються двома таборами, існує велика кількість розривів, яка більше пов'язана з тим, що зроблено, ніж з тим, що можна зробити (тобто багато моделей, які традиційно використовуються одним табором, можуть бути виправдані іншим табором ).

Тому я думаю, що іншим способом формулювати моє запитання було б таке: Чому культурні баєси називають себе баєсами, якщо вони відкидають багато математично байєсівських методів? І чому вони відкидають ці математично байєсівські методи? Це особиста неприязнь до людей, які найчастіше використовують саме ці методи?

Редагувати: два об'єкти рівнозначні в математичному сенсі, якщо вони мають однакові властивості , незалежно від того, як вони побудовані. Наприклад, я можу придумати щонайменше п’ять різних способів побудови уявної одиниці . Тим не менш, існує не менше п'яти різних "шкіл думки" щодо вивчення уявних чисел; насправді я вважаю, що існує лише одна, а саме та група, яка вивчає їх властивості. Тим, хто заперечує, що отримання бальної оцінки з максимальною ймовірністю - це не те саме, що отримання бальної оцінки з використанням максимуму апріорі та рівномірного попереднього, оскільки розрахунки, що стосуються, різні, я визнаю, що вони різні у філософському сенсі, але в тій мірі, в якій вони завждиiдають однакові значення для оцінки, вони математично еквівалентні, оскільки мають однакові властивості . Можливо, філософська різниця стосується вас особисто, але це питання не стосується цього питання.

Примітка. Спочатку це питання мало неправильну характеристику оцінки MLE та оцінки MAP з рівномірним попереднім.


8
(-1) Це питання засноване на помилкових припущеннях. MLE не відповідає "використанню рівномірного попереднього", але використанню рівномірного попереднього та вибору режиму заднього розподілу (так, MAP з рівномірним попереднім). При використанні зброї масового знищення, параметр не вважаються випадковими величинами, так як конструкції , або інтеграли по є математично НЕ має сенсу. Pr(θ[0,1]y)θy
Juho Kokkala

3
Я не пригадую жодних байєсів, які або відкидають все, що не є байєсівським на ім'я, або використовують обмежену кількість розповсюджень. Можна легко замінити "байєзців" на "ветеринари" у вашому запитанні і запитати про те, чому часто відвідувачі відкидають все, що є нечастістським, і чому вони використовують обмежену кількість розповсюджень (в основному, нормальне розповсюдження скрізь) - питання, що виникає такий же нечесний, як і ваш. Я також згоден з @JuhoKokkala, що MLEвикористовуючи рівномірний попередній, навіть якщо їх бальні оцінки можуть відповідати.
Тім

5
MLE та MAP не мають однакових математичних властивостей. Якщо ви репараметризуєте свої змінні, MLE та MAP перетворюються по-різному (оскільки MLE має "рівне попереднє" у кожній параметризації, MAP не робить). Визначення математичного об'єкта включає в себе поведінку об'єкта в таких операторах, як трансформація змінних (наприклад, див. Визначення тензор). Тож вони не одне і те ж.
lacerbi

2
Я зроблю це (короткою) відповіддю, оскільки дивно, що поки ніхто про це не згадував. Мені також довелося це пояснювати багато разів у минулому, оскільки це тонкість, яку легко пропустити.
lacerbi

4
Ви коли-небудь грали в шашки з шаховим набором? Час від часу може траплятися, що ти опинишся в дійсній шаховій позиції і можеш зробити легальний шаховий хід, що також є законним кроком. Звичайно, що було б гарним шаховим кроком, не завжди буде хорошим кроком шашки. І ви не ухилитесь від того, щоб зробити хороший рух чернетки лише тому, що це також шаховий хід. Це досить відрізняється від опису гри в шахи французькою, а не англійською мовою, або від обертання дошки, щоб чорні квадрати стали білими, або
поміняли

Відповіді:


12

Я хотів би виправити помилкове припущення в початковому дописі, помилка, яка є досить поширеною. ОП каже:

З того, що я прочитав, і з відповідей на інші запитання, які я тут задав, оцінка максимальної ймовірності відповідає математично (мені не байдуже, чи відповідає вона філософськи, мені цікаво, чи відповідає вона математично) до максимальної апріорної оцінки з використанням рівномірного попереднього ( для тих, хто заперечує проти цього, див. примітку внизу цього питання).

А в примітці внизу допису написано:

Два об'єкти рівнозначні в математичному сенсі, якщо вони мають однакові властивості, незалежно від того, як вони побудовані. [...]

Моє заперечення полягає в тому, що філософія вбік, оцінка максимальної ймовірності (MLE) та максимальна оцінка астероріо (MAP) не мають однакових математичних властивостей.

Принципово важливо, що MLE та MAP перетворюються по-різному в умовах (нелінійної) репараметризації простору. Це трапляється тому, що MLE має "плоскі попередні" у кожній параметризації, тоді як MAP - ні (попередні перетворення як щільність ймовірності , тому існує якобіанський термін).

Визначення математичного об'єкта включає в себе поведінку об'єкта в таких операторах, як перетворення змінних (наприклад, див. Визначення тензор ).

На закінчення, MLE та MAP - це не одне і те ж, ні філософсько, ні математично; це не думка.


Я думаю, можливо, я пропустив вашу думку. Чи можна параметризувати модель таким чином, що точкові оцінки з MLE не дорівнюють оцінкам з MAP з рівномірним попереднім? (Зрозуміло, що у випадку MAP попередній повинен бути рівномірним щодо поточної параметризації для того, щоб рівноправність працювала. Якщо ви репараметризуєте модель, не змінюючи попередню, то вона взагалі більше не буде рівномірною.)
Кодіолог

1
@Kodiologist: ОП заявила, що MAP і MLE є ідентичними "математичними об'єктами". Вони не. Розрізнені математичні об'єкти можуть бути рівними в підпросторі (наприклад, у заданій параметризації), але це не робить їх однаковими. Ви можете сказати: «Мені не цікаво інших параметрів», але, ну, тоді ви накладаєте сильне практичне обмеження, це вже не «просто» філософський пункт, як спочатку заперечували ОП.
lacerbi

6

Особисто я скоріше "прагматик", а не "частіст" чи "баєс", тому не можу претендувати на те, щоб виступати за жоден табір.

З цього приводу, я думаю, що відмінність, на яку ви натякаєтеся, мабуть, не стільки MLE проти MAP, скільки між точковими оцінками та оцінкою задніх PDF . Як учений, який працює в галузі із обмеженими даними та великими невизначеностями, я можу співчувати тому, що не хочу надто сильно довіряти результатам "найкращої здогадки", які можуть вводити в оману, що призводить до надмірної впевненості.

Пов'язане практичне розмежування між параметричними та непараметричними методами. Так, наприклад, я думаю, що і фільтрація Кальмана, і фільтрування частинок будуть прийняті як рекурсивна байєсова оцінка . Але гауссова припущення про фільтрування Кальмана (параметричний метод) може дати дуже оманливі результати, якщо задні не є одномодовими. Мені такі приклади інженерії підкреслюють, коли відмінності не є ні філософськими, ні математичними, а проявляються в практичних результатах (тобто, якщо ваш автономний транспортний засіб вийде з ладу?). Для ентузіастів Байєса, з якими я знайомий, це «бач, що працює», здається, що інженерно-стильове ставлення є переважаючим… не впевнений, чи це правда ширше.


1
Незалежно від того, чи моделюється шум Гаусса чи іншого розповсюдження, це не те, що визначає параметричний чи непараметричний метод.
Cliff AB

1
Я думав про фільтрування частинок проти фільтрації Калмана.
GeoMatt22

1
@CliffAB Я відредагував свою відповідь, щоб сподіватись виправити ненавмисні наслідки, що "
Гауссова

2
На мій досвід (зовсім не всеосяжний!) Книги, спрямовані на інженерів у "технологічних" сферах, як правило, більше подібні. Такі речі, як робототехніка та інші додатки в режимі реального часу / надійні, як правило, швидко з’ясовуються, коли вони не працюють. Це, мабуть, номінально більше байєсів, але ймовірний робототехніка Себастьяна Трона просвічувала мене. Він хлопець Udacity .
GeoMatt22

2
Я взагалі не вивчав цю сферу, але моє враження, що велика частина класичної інженерії надійності використовує "частістські" підходи, тож це може бути також область з прагматичними текстами?
GeoMatt22

6

Однак багато людей, які описують себе як «байєси», схоже, відмовляються, використовуючи максимальну оцінку ймовірності за будь-яких обставин, навіть якщо це особливий випадок (математично) байєсівських методів, оскільки це «метод частістів».

Такі люди будуть відкидати MLE як загальний метод складання бальних оцінок. У конкретних випадках, коли вони мали підстави використовувати єдиний попередній час і хотіли зробити максимум післяоценкову оцінку, їх взагалі не турбує збіг їхніх обчислень з MLE.

Очевидно, байєси також використовують обмежену / обмежену кількість розподілів порівняно з частотаторами, хоча ці розподіли були б математично правильними і з байєсівської точки зору.

Можливо, іноді, щоб зробити їхні обчислення простішими, але не з будь-якої принципової точки.

У мене складається враження, що існує щонайменше два різних визначення терміна "байєсів", які зазвичай використовуються. Перший я б назвав "математично байєсівським", який охоплює всі методи статистики, оскільки включає параметри, які є постійними RV і ті, які не є постійними RV. Тоді є "культурно-байєсівський", який відкидає деякі "математично байєсівські" методи, оскільки ці методи "часті" (тобто від особистої ворожнечі до параметра, який іноді моделюється як константа або частота).

Звичайно, слід розрізняти різні підходи до байєсівського висновку, але не цей. Якщо є сенс, в якому байєсіанство є більш загальним, воно полягає у готовності застосувати поняття ймовірності до епістемічної невизначеності щодо значень параметрів & не просто побіжної невизначеності процесу генерування даних, що стосується всього того, що часто стосується самого себе. Частота висновку не є особливим випадком байєсівського висновку, і жоден з відповідей чи коментарів не існує Чи є математична основа для байесівських та частофілістських дискусій?мають на увазі, що це так. Якби в байєсівському підході ви повинні вважати параметр постійною випадковою змінною, ви отримаєте ту саму задню, яку б не було дані, - і сказати, що вона є постійною, але ви не знаєте, яке значення потрібно не було б нічого говорити Варто сказати. Частоталістський підхід займає зовсім інший характер і зовсім не передбачає обчислення заднього розподілу.


"Частоталістський підхід має зовсім інший характер і зовсім не передбачає обчислення заднього розподілу", - але це не моя суть. Я не говорю про філософські наміри, я кажу про математичну еквівалентність. Хтось міг би сказати, що вони є "субтрактивістом", оскільки вони лише додають і віднімають додатні числа, але відмовляються від використання негативних чисел, що є "негативістськими". Філософсько це може бути так, але математично кажучи віднімання додатного числа - це те саме, що і додавання від’ємного числа.
Chill2Macht

Я намагаюся сказати, що "математично байєсівський" буде застосовувати і не застосовувати поняття ймовірності до епістемічної невизначеності щодо значень параметрів. "Культурно-байєсівський" застосовував би (і ніколи не застосовує) концепцію ймовірності епістемічної невизначеності щодо значень параметрів. "Частота" буде лише не застосовувати (і ніколи не застосовувати) ймовірність епістемічної невизначеності щодо значень параметрів. Що я говорю, це те, що "байєсівський висновок = байєсівський культура" і "частістський" здаються особливим випадком, заснованим на тому, що говорять люди.
Chill2Macht

У будь-якому разі, я думаю, я спробую прочитати асимптотичну статистику Ван дер Ваарта, перш ніж коментувати подальшу статистику частолістів, але прочитавши вже Казеллу та Бергер та нульові підручники Байєса, я не розумію твердження, що "частофілістський підхід займає зовсім інший крок" від застосовуючи поняття ймовірності до "просто алеаторної невизначеності процесу генерування даних", оскільки це, здається, суперечить іншим частинам написаного вами.
Chill2Macht

2
(1) Якщо ваша думка про те, що частістські та баєсійські процедури є математично рівнозначними, але просто описані в різних термінах, то це просто неправда. Вони збігаються за певних випадків - так само, як субтрактивістське та негативістське віднімання збігається, поки ви не прийдете на роботу35. (2) Якщо я можу прочитати "як заява, так і не подача заявки" як "іноді застосовуючи, іноді не застосовуючи", то "математично байєсів" - це просто іноді байєсівський, іноді частофілістський, а "культурно-байєсівський" просто баєсійський. (3) Я б рекомендував Кокса (2006), Принципи статистичних виводів, Гейссер (2006), ...
Scortchi - Відновити Моніку

2
Режими параметричного статистичного умовиводу та Барнетта (1999), Порівняльні статистичні умовиводи . (4) частістський підхід враховує лише ймовірність даних за заданими значеннями параметрів; байєсівський підхід умови спостережуваних даних для отримання заднього.
Scortchi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.