За яких умов збігаються байєсівські та частолістські оцінки точок?


17

З плоским попереднім оцінкою збігаються оцінки ML (частість - максимальна ймовірність) та MAP (байєсівський - максимум a posteriori).

Однак у більш загальному плані я говорю про оцінки точок, отримані як оптимізатори певної функції втрат. Тобто

(Bayesian)  х (

x^(.)=argminE(L(Xx^(y))|y) (Bayesian) 
x^(.)=argminE(L(xx^(Y))|x)(Frequentist)

де E є оператором очікування, L є функцією втрат (мінімізовано в x^(y) є оцінкою, враховуючи дані y , параметра x , а випадкові величини позначені заголовними буквами.

Хтось знає якісь умови щодо L , pdf x та y , накладеної лінійності та / або неупередженості, де оцінки будуть збігатися?

Редагувати

Як зазначається в коментарях, необхідна неупередженість, така як неупередженість, щоб зробити проблему частого лікаря значимою. Плоскі пріори також можуть бути спільністю.

Окрім загальних дискусій, наданих деякими відповідями, питання справді стосується також надання фактичних прикладів . Я думаю, що важливе значення має лінійна регресія:

  • х = ( D ' D ) - 1 D ' у є (СИНІЙ теорема Гаусса-Маркова ), тобто мінімізує MSE частотний серед лінійно-неупереджених оцінок.x^=(DD)1Dy
  • якщо є гаусовим і до плоского, х = ( D ' D ) - 1 Д ' у є «задній» означає зводить до мінімуму байєсівської означає втрату для будь-якої опуклою функції втрат.(X,Y)x^=(DD)1Dy

Тут, здається , відомий як матриця даних / дизайну в частофілістському / байєсівському лінгві відповідно.D


Я припускаю, що ви хочете, щоб у відповіді було прийнято рівномірно? В іншому випадку, звичайно, немає можливості, щоб оцінки могли бути розумними, якщо очікувати, що вони будуть однаковими в цікавих загальних випадках.
user56834

2
На питання, яке ви ставите, відповісти на це непросте
Jeremias K

@ JeremiasK, може, ти можеш щось пояснити у відповідь?
user56834

1
@ Programmer2134 Я б, якби відчував себе досить комфортно з матеріалом, але цього не роблю. Я знаю, що те, що вони роблять, - це отримання байєсівського аналога CLT, з певними "показниками задньої концентрації", які говорять вам про те, як швидко параметр заднього концентрується на точці у вашому просторі параметрів, коли ви збільшуєте розмір вибірки, а потім ви в основному закінчуєте пошук гарантій послідовності типів для ваших байєсівських оцінювачів.
Єремія К

Відповіді:


7

Питання цікаве, але дещо безперспективне, якщо поняття частолістського оцінювача не буде уточнене. Це, безумовно , не один набір в питанні х ( , так як відповідь на мінімізації х ( у ) = х для всіх у «Sяк зазначено ввідповіді Programmer2134 в. Основоположним питанням є те, що не існує єдиного частофілістського оцінювача проблеми оцінки без введення додаткових обмежень або класів оцінювачів. Без цього всі оцінки Байєса також є оцінювачами частості.

x^(.)=argminE(L(x,x^(Y))|x)
x^(y)=xy

Як зазначено в коментарях, неупередженість може бути таким обмеженням, і в цьому випадку оцінки Байєса виключаються. Але це частолістське поняття стикається з іншими частофілістськими поняттями, такими як

  1. допустимість, оскільки явище Джеймса-Штейна продемонструвало, що неупереджені оцінки можуть бути неприйнятними (залежно від функції втрати та від розмірності проблеми);
  2. інваріантність при репараметеризації, оскільки неупередженість не тримається під перетвореннями.

Плюс неупередженість стосується лише обмеженого класу проблем з оцінкою. Під цим я маю на увазі, що клас неупереджених оцінювачів певного параметра або перетворення h ( θ ) більшість часу порожній.θh(θ)

Якщо говорити про прийнятність, ще одне частофілістське поняття, існують параметри, для яких єдиними допустимими оцінками є оцінки Байєса, і навпаки. Цей тип установок стосується повних теорем про класи, встановлених Авраамом Вальдом у 1950-х роках. (Це ж стосується кращих інваріантних оцінювачів, які є Бейесом згідно з відповідним правильним заходом Хаара.)


1
Чи існують інші канонічні способи обмеження класу оцінювачів, щоб проблема мінімізації була чітко визначеною та не виродженою (крім необхідності неупередженості), які ближче до байєсівського?
user56834

3

Загалом, частофілістські та баєсові оцінки не збігаються, якщо ви не використовуєте вироджену квартиру до цього. Основна причина така: Оцінювачі часто часто намагаються бути неупередженими. Наприклад, часто лікарі намагаються знайти об'єктивну оцінку мінімальної дисперсії ( http://en.wikipedia.org/wiki/Minimum-variance_unbiased_estimator ). Тим часом, всі нероджені оцінки Байєса упереджені (у частому сенсі упередженості). Див., Наприклад, http://www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdf , теорема 5.

Підводячи підсумок: Більшість популярних частолістських оцінювачів прагнуть бути неупередженими, тоді як усі оцінки Байєса упереджені. Таким чином, Байєс і частолістські оцінки рідко збігаються.


5
Мені цікаво правильність цих тверджень, враховуючи, що «більшість популярних частолістських оцінювачів» є ML, і вони, як правило, упереджені (залежно від параметризації). Більше того, хороший частофіліст глибоко стурбований втратою та прийнятністю; Ключова частина цієї теорії визнає, що допустимі процедури походять від процедур Байєса, звідки - принаймні в такому широкому сенсі - саме серце частолістської теорії покладається на оцінювачів Байєса! Мене можуть переконати у вашій точці зору, якби ви могли зрозуміти "часто", "найчастіше" і "рідко" і підкріпити це доказами.
whuber

@whuber Хороший момент - моя відповідь була, можливо, трохи спрощеною. Справжні часто відвідувачі схильні використовувати упереджені процедури (наприклад, L1 або L2 пеналізованої регресії), або навіть можуть використовувати офіційно байєсовські процедури. Однак я вважаю, що неупереджені оцінки є вихідною точкою для найбільш частого аналізу. Наприклад, перша м'ясна глава «Теорії оцінки точки» Леманна і Казелла (один із стандартних текстів про частоту оцінку) - це все про неупередженість.
Стефан Вагер

5
Ну добре (+1). Але я вважаю ваш останній аргумент кумедним: адже книга повинна починатись десь, і зазвичай ця відправна точка обрана саме через її простоту та доступність, а не для її практичної важливості. З тих же міркувань ви можете стверджувати, що більшість сучасної математики в першу чергу стосується логіки та теорії множин, адже вони часто складають першу главу у багатьох підручниках з математики! Кращим відображенням статистичної практики може бути остання половина Lehmann & Casella - погляньте на те, що там обговорюється :-).
whuber

"якщо ви раніше не використовували вироджену квартиру". Ну це цікавий особливий випадок, щоб подумати, чи не так?
user56834

Також його питання полягає в тому, чи теоретично вони збігалися б за певних умов, а не збігаються оцінки, які застосовуються на практиці.
user56834

3

argminx^(y)y

xxf(x,x^)=E(L(xx^(Y))|x)xxf(x,x^)x^x^=x


1
Хороші бали. Я думаю, ти маєш рацію щодо проблеми частості. Спосіб її відображення - обмеження класу оцінювачів. Від Lehmann & Casella: "Поки ми займалися пошуком оцінок, які мінімізують ризик R (θ, δ) при кожному значенні θ. Це було можливо лише шляхом обмеження класу оцінювачів, які слід враховувати вимогою неупередженості, такою як неупередженість або рівнозначність ".
Патрік

1

Відповідь на це питання може не бути.

Альтернативою може бути запрошення методів для ефективного визначення двох оцінок для будь-якої проблеми. Байєсівські методи досить близькі до цього ідеалу. Однак, хоча методи Minimax можуть бути використані для визначення частотистської оцінки балів, загалом застосування методу minimax залишається складним, і, як правило, не застосовується на практиці.

Іншою альтернативою було б переформулювати питання щодо умов, за яких байєсівські та частофілістські оцінки дають "послідовні" результати та намагаються визначити методи для ефективного обчислення цих оцінювачів. Тут «послідовне» прийнято означати, що байєсівські та частолістські оцінки виходять із загальної теорії і що для обох оцінювачів використовується однаковий критерій оптимальності. Це дуже відрізняється від спроб протиставити байєсівську та частолістську статистику, і може зробити це питання зайвим. Один з можливих підходів - націлитись як на випадок частістів, так і на справу Баєса, на рішення, що мінімізують втрати для заданого розміру, тобто, як це запропоновано

Шафер, Чад М і Філіп Б Старк. "Побудова областей довіри оптимального очікуваного розміру." Журнал Американської статистичної асоціації 104.487 (2009): 1080-1089.

Виявляється, що це можливо - як для частолістської, так і для байєсівської справи - шляхом включення за допомогою переваг спостережень та параметрів з великою точково взаємною інформацією. Набори рішень не будуть ідентичними, оскільки питання, яке задається, відрізняється:

  • Незалежно від того, що є істинним параметром, обмежте ризик прийняття неправильних рішень (частістський погляд)
  • З огляду на деякі спостереження, обмежте ризик включення неправильних параметрів у набір рішень (байєсівський погляд)

Однак набори значною мірою перекриватимуться та стануть однаковими в деяких ситуаціях, якщо використовуються плоскі пріори. Ця ідея обговорюється більш докладно разом з ефективним втіленням в Росії

Bartels, Christian (2015): Загальна та послідовна довіра та надійні регіони. фішаре. https://doi.org/10.6084/m9.figshare.1528163

Для інформативних пріорів набори рішень більше відхиляються (як це загальновідомо і вказувалося в питанні та відповідях вище). Однак у послідовних рамках отримують тести, що часто проводяться, які гарантують бажане частотське висвітлення, але враховують попередні знання.

Bartels, Christian (2017): Використання попередніх знань у тестах періодизму. фішаре. https://doi.org/10.6084/m9.figshare.4819597

Запропоновані методи все ще не мають ефективного впровадження маргіналізації.


Не могли б ви детальніше розглянути своє запитання, коли вони будуть "послідовними"?
user56834

@ Programmer2134. Дякую, спробував уточнити у відповіді.
користувач36160
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.