Чим відрізняється байєсівська оцінка і максимальна оцінка ймовірності?


50

Поясніть, будь ласка, різницю байєсівської оцінки та максимальної оцінки ймовірності?


7
Залежить від байєсівської оцінки. КАРТА? Задня середня? Результат мінімізації ризику Байєса для якоїсь функції втрат? Кожне з перерахованого вище? Щось ще?
Glen_b

2
Я відповів на це запитання або аналог тут. stats.stackexchange.com/questions/73439/… Які проблеми ви розумієте? Більш детальна інформація допоможе нам дати кращу відповідь.
Відновіть Моніку

1
З посібника STAN: "Якщо попередній рівномірний, задній режим відповідає максимальній оцінці ймовірності (MLE) параметрів. Якщо попередній не є рівномірним, задній режим іноді називають максимальним заднім (MAP) оцінкою. "
Неєрав

@Neerav, це мені потрібна відповідь. thx
javadba

Можливий корисний відповідь для конкретного випадку Байеса максимуму апостеріорної оцінки даються тут .
pglpm

Відповіді:


68

Це дуже широке запитання, і моя відповідь тут лише починає трохи дряпати поверхню. Я буду використовувати правило Байєса для пояснення понять.

Припустимо , що безліч параметрів розподілу ймовірностей, , найкраще пояснює набір даних D . Ми можемо побажати оцінити параметри θ за допомогою Правила Байєса:θDθ

p(θ|D)=p(D|θ)p(θ)p(D)

posterior=likelihoodpriorevidence

Пояснення випливають:

Максимальна оцінка ймовірності

θp(D|θ)θ^θ^

Іншими словами, у рівнянні вище MLE трактує термін як константа і НЕ дозволяє нам вводити наші попередні переконання,p(θ), про ймовірні значення дляθв розрахунках оцінки.p(θ)p(D)p(θ)θ

Байєсова оцінка

Байєсова оцінка, навпаки, повністю обчислює (або часом наближає) задній розподіл . Байєсівський умовивід трактує θ як випадкову величину. За байєсівською оцінкою, ми вкладаємо функції щільності ймовірності та отримуємо функції щільності ймовірності, а не єдину точку, як у MLE.p(θ|D)θ

θp(θ|D)θθθ

evidence

p(D)=θp(D|θ)p(θ)dθ

Це призводить до поняття "кон'югованих пріорів" в байєсівській оцінці. Для заданої функції ймовірності, якщо у нас є вибір щодо того, як ми висловлюємо свої попередні переконання, ми повинні використовувати ту форму, яка дозволяє нам здійснити інтеграцію, показану вище. Ідея кон'югованих пріорів та те, як вони практично реалізовані, досить добре пояснена в цьому пості в COOlSerdash.


1
Чи хотіли б ви детальніше зупинитися на цьому? : "знаменник у праві Байєса, тобто доказ".
Даніель

1
Я продовжив свою відповідь.
Жубарб

@ Беркан в рівнянні тут P (D | theta) - це ймовірність. Однак функція вірогідності визначається як P (theta | D), тобто функція параметра, заданих даними. Мене завжди бентежить з цього приводу. Термін вірогідність стосується різних речей тут? Не могли б ви детальніше зупинитися на цьому? Дуже дякую!
zesla

1
@zesla, якщо моє розуміння правильне, P (theta | D) не є ймовірністю - це заднє. Тобто, розподіл тети умовно залежить від джерела даних, з якого ви маєте вибірки. Ймовірність така, як ви сказали: P (D | theta) - розподіл ваших даних, параметризований тетою, або, можливо, інтуїтивно кажучи, "ймовірність побачити те, що ви бачите" як функцію тети. Чи має це сенс? Всі інші: будь ласка, виправте мене там, де я помиляюся.
грисаїт

@zesla, пояснення, дане гризаїтом, є правильним.
Жубарб

13

Я думаю, ви говорите про оцінку точки, як про параметричні умовиводи, щоб ми могли припустити параметричну модель ймовірності для механізму генерування даних, але фактичне значення параметра невідоме.

Максимальна оцінка ймовірності стосується використання моделі ймовірностей для даних та оптимізації функції спільної ймовірності спостережуваних даних за одним або кількома параметрами. Тому видно, що оцінені параметри найбільш узгоджуються із спостережуваними даними щодо будь-якого іншого параметра в просторі параметрів. Зауважте, такі функції ймовірності не обов'язково розглядаються як "умовні" параметри, оскільки параметри не є випадковими змінними, отже, дещо складніше уявити ймовірність різних результатів, порівнюючи дві різні параметризації. Виявляється, це філософсько обгрунтований підхід.

Оцінка баєса трохи загальніша, оскільки ми не обов'язково максимізуємо байєсівський аналог вірогідності (задня щільність). Однак аналогічний тип оцінки (або оцінка заднього режиму) розглядається як максимізація ймовірності заднього параметра, що обумовлена ​​даними. Зазвичай оцінки Байєса, отримані таким чином, поводяться майже так само, як і оцінки ML. Ключова відмінність полягає в тому, що висновок Байєса дозволяє чітко визначити спосіб включення попередньої інформації.

Також «Епічна історія максимальної вірогідності робить для ілюмінаційного прочитання

http://arxiv.org/pdf/0804.2996.pdf


Чи хотіли б ви детальніше зупинитися на цьому? "Однак аналогічний тип оцінки (або оцінка заднього режиму) розглядається як максимізація ймовірності заднього параметра, що залежить від даних."
Даніель

Задній режим є дещо помилковим, тому що при безперервному значенні DF це значення добре визначене. Задня щільність пов'язана з вірогідністю у випадку частолістів, за винятком того, що вона дозволяє моделювати параметри з задньої щільності. Цікаво, що найкраще бальне оцінювання параметра "інтенсивно оцінює" задню середню ". Такий підхід часто робиться, і для симетричних унімодальних густин це дає дійсні достовірні інтервали, що відповідають МЛ. Задній режим - це лише значення параметра на вершині задньої щільності.
AdamO

Про "це створює дійсні достовірні інтервали, які відповідають ML.": Це дійсно залежить від моделі, правда? Вони можуть бути послідовними чи ні ...
Даніель

1
Питання про базові параметричних припущеннях мотивує обговорення повністю параметричне проти напівпараметричний або відсутності -параметріческого умовиводів. Це не проблема ML та Bayesian, і ви не перший, хто зробив цю помилку. ML - це повністю параметричний підхід, він дозволяє оцінити деякі речі, які SP або NP не можуть (а часто і ефективніше, коли вони можуть). Правильно вказати модель ймовірності в ML точно так, як вибрати правильний попередній і всі властивості надійності (і проблеми чутливості), що випливає.
AdamO

До речі, ваші коментарі запалили це питання в моїй свідомості. Будь-які коментарі з цього приводу? stats.stackexchange.com/questions/74164/…
Даніель

2

Байєсівська оцінка - байєсівський висновок, тоді як MLE - це тип частістських методів виводу.

f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)likelihood=posteriorevidencepriorp(θ)=1/6

Альтернативу MLE в байєсівському висновку називають максимальною післяорієнтованою оцінкою (MAP для коротких), а насправді MLE - це особливий випадок MAP, коли попередній рівень є рівномірним, як ми бачимо вище та як зазначено у Вікіпедії :

З точки зору байєсівського висновку, MLE - це особливий випадок максимальної післяорієнтованої оцінки (MAP), який передбачає рівномірний попередній розподіл параметрів.

Для детальної інформації див. Цю дивовижну статтю: MLE vs MAP: зв'язок між максимальною ймовірністю та максимальною оцінкою Posteriori .

І ще одна відмінність полягає в тому, що максимальна ймовірність є схильною до вирівнювання, але якщо ви скористаєтеся байєсівським підходом, можна уникнути проблеми з надмірною обробкою.


1
Однією з цікавих речей щодо Байєса є те, що ви зовсім не зобов’язані обчислювати будь-яку оцінку балів. Вся задня щільність може бути вашою "оцінкою".
Френк Харрелл

@FrankHarrell Шановний професоре Гаррелл, чи можете ви допомогти мені відредагувати відповідь, якщо я десь зробив жахливі помилки? Дуже дякую!
Лернер Чжан

1
Я не мав на увазі, що ти помилився.
Френк Харрелл

@lerner: Я хочу застерегти від ідентифікації оцінки максимальної ймовірності як окремого випадку оцінки максимальної a posteriori (коли попереднє значення є постійним): дивіться чому у цій відповіді .
pglpm
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.