Порівнюючи максимальну оцінку ймовірності (MLE) та теорему Байєса


12

У теорії Байєса , а з книги, яку я читаю, називається ймовірність , але я припускаю , що це всього лише умовна ймовірність від дається , НЕ так?

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

В оцінці максимальної правдоподібності намагається максимізувати , НЕ так? Якщо так, я сильно плутаюсь, тому що це обидві випадкові величини, правда? Для максимального тільки з'ясувати , в ? Ще одна проблема: якщо ці 2 випадкові величини незалежні, то - просто , правда? Тоді максимізація - це максимізація .p(x|y)x,yp(x|y) y^p(x|y)p(x)p(x|y)p(x)

А може, - це функція деяких параметрів , тобто , і MLE намагається знайти який може максимально збільшити ? Або навіть що - це фактично параметри моделі, а не випадкова величина, що збільшує ймовірність - це знайти ?p(x|y)θp(x|y;θ)θp(x|y)yy^

ОНОВЛЕННЯ

Я початківець у машинному навчанні, і ця проблема викликає плутанину з речей, які я читала з підручника з машинного навчання. Ось він, враховуючи спостережуваний набір даних , цільовими значеннями є , і я намагаюся помістити модель на цей набір даних , тож я припускаю, що, даючи , має форму розподілу, яку називають параметризовану на , тобто , і я припускаю, що це ймовірність задньої , так?{x1,x2,...,xn}{y1,y2,...,yn}xyWθp(y|x;θ)

Тепер для оцінки значення я використовую MLE. Гаразд, тут виникає моя проблема, я думаю, ймовірність , правда? Максимізація ймовірності означає, що я повинен вибрати правильний і ?θp(x|y;θ)θy

Якщо моє розуміння ймовірності неправильне, будь ласка, покажіть мені правильний шлях.


Я думаю, що плутанина така: теорема Байєса - це лише маніпулювання умовними ймовірностями, які ви даєте на початку свого запитання. Байєсова оцінка використовує теорему Байеса , щоб зробити оцінки параметрів. Лише в останньому вступають у гру максимальну оцінку ймовірності (MLE) та параметр theta тощо.
Жубарб

@ Беркан, ну я насправді намагаюся зрозуміти, що таке ймовірність, враховуючи . x,y,θ
авокадо

1
Я бачу, я б рекомендував вам ознайомитись із цим чудовим набором вступних слайдів лекції для оцінки параметрів.
Жубарб

1
Ще одна чудова тема, яку варто прочитати, - це Оцінки емпіричних баєсів. Ми щойно дізналися про тих, хто в моєму класі :) biostat.jhsph.edu/~fdominic/teaching/bio656/labs/labs09/…
bdeonovic

Відповіді:


16

Я думаю, що основне непорозуміння випливає з питань, які ви задаєте в першій половині запитання. Я підходжу до цієї відповіді як протиставлення інфекційних парадигм MLE та Bayes. Дуже доступну дискусію про MLE можна знайти в главі 1 Гарі Кінга, Об'єднавча політична методологія. Байєсський аналіз даних Гельмана може надати детальну інформацію щодо байєсівської сторони.

У теоремі Байєса а з книги, яку я читаю, називається вірогідність, але я припускаю, що це просто умовна ймовірність задана , так?

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

Ймовірність - це умовна ймовірність. Для байесівської формули ця формула описує розподіл параметра заданих даних та попереднього . Але оскільки це позначення не відображає вашого наміру, відтепер я буду використовувати ( , ) для параметрів, а для ваших даних.yxp(y)θyx

Але ваше оновлення вказує на те, що спостерігається з деякого розподілу . Якщо розмістити наші дані та параметри у відповідних місцях у праві Байєса, ми виявимо, що ці додаткові параметри не створюють проблем для байесів: xp(x|θ,y)

p(θ|x,y)=p(x,y|θ)p(θ)p(x,y)

Я вважаю, що це вираз - це те, що ви хочете оновлювати.

Максимальна оцінка ймовірності намагається максимізувати , правда?p(x,y|θ)

Так. MLE вважає, що Тобто, він розглядає термін як невідомий (і незрозуміла) константа. Навпаки, байєсівський умовивід трактує як нормалізуючу константу (так що ймовірності сум / інтегруються до одиниці) та як ключову інформацію: попередню. Ми можемо вважати способом стягнення штрафу за процедуру оптимізації за "блукання занадто далеко" від регіону, який, на наш погляд, є найбільш правдоподібним.

p(x,y|θ)p(θ|x,y)
p(θ,y)p(x)p(x)p(θ,y)p(θ,y)

Якщо так, я сильно плутаюсь, тому що є випадковими змінними, правда? Максимізувати - це просто з'ясувати ?x,y,θp(x,y|θ)θ^

У MLE вважається фіксованою величиною, яка невідома, але підлягає висновку, а не випадкова величина. Байєсівський умовивід трактує як випадкову змінну. Функції щільності байєсівської логічний висновок ставить ймовірність в і отримують функцію щільності ймовірності з , а не точкового резюме моделі, як і в ОМПЕ. Тобто, байєсівський висновок розглядає весь діапазон значень параметрів та ймовірність кожного. MLE стверджує, що є адекватним резюме даних, наданих моделлю.θ^θθ^


1
Дякую за вашу відповідь, я оновлюю свою публікацію, будь ласка, дивіться моє оновлення.
авокадо

Це оновлення докорінно змінило моє розуміння питання. Спочатку я думав, що ви розглядаєте як параметр, а як ваші дані. Тепер виявляється, що це дані, і вам цікаво побудувати модель, яка описує взаємозв'язок між і . Я можу змінити свою відповідь, коли матиму час. yx(x,y)xy
Sycorax каже, що повернеться Моніка

+1 Це все ще чудова відповідь: Я сподіваюся, що ви збережете це в цілому недоторканим, навіть якщо ви модифікуєте його відповідно до змін у питанні.
whuber

Я оновив свою відповідь, щоб відобразити ваше оновлене запитання. Я сподіваюся, що ці деталі допоможуть. Я дійсно рекомендую посилатися на посилання, які я згадую. І я сподіваюся, @whuber все-таки схвалює. ;-)
Sycorax повідомляє про відновлення Моніки

Дякую тобі за оновлення, тож ти маєш на увазі, хоча я підбираю форму розподілу для , я повинен ставитися до як до даних, що спостерігаються, коли я намагаюся оцінити ? p(y|x)x,yθ
авокадо

3

Зазвичай - це функція параметра . Розглянемо наступне переформулювання теореми Байєса:p(x|y)y

p(θ|x)=p(x|θ)p(θ)p(x)

Або ще явніше (стосовно поняття ймовірності):

p(θ|x)=L(θ;x)p(θ)p(x)

Для конкретного прикладу розглянемо модель

X|θBinomial(θ)θBeta(α,β)

Отже, зазвичай не є випадковою змінною, а , правда? yx
авокадо

Y, як правило, параметр на pdf X. У параметрі частості, y зазвичай є фіксованим значенням. У байєсівській обстановці Y - сама випадкова величина (як у прикладі, який я дав). X | Y також може бути умовною ймовірністю в тому сенсі, який ви маєте на увазі, я намагався дати вам мотивацію, чому ця кількість називається ймовірністю.
Девід Маркс

Що стосується конкретного прикладу, наведеного у вашій відповіді, ви маєте на увазі, що насправді є випадковою змінною, але в розподілі вона приймається за параметр? θX
авокадо

Просто те, що щось є випадковою змінною, не означає, що вона не може бути параметром. Ласкаво просимо у чудовий світ байєсівської вірогідності :)
Девід Маркс

0
  • "... називається ймовірністю ..."p(x|y)

p(x|y) - ймовірність y заданого x . Сказати, якою є ймовірність, важливо. І так, це просто умовна ймовірність задана .xy

  • "... якщо ці 2 випадкові величини незалежні, то - це просто , так? Тоді максимізація - це максимізація ..."p(x|y)p(x)p(x|y)p(x)

Якщо вони незалежні, тобто , є постійним щодо . Будьте обережні, оскільки ви не вказуєте, до чого досягаєте максимуму, - з того, що ви писали раніше, я вважаю, що ви максимізуєте щодо .p(x|y)=p(x)p(x)yy

  • ... А може бути, - це функція деяких параметрів , тобто , і MLE намагається знайти який може максимально збільшити ? Або навіть що y - це фактично параметри моделі, а не випадкова величина, максимізація ймовірності - це знайти ? ...p(x|y)θp(x|y;θ)θp(x|y)y^

Представлення робить це абсолютно новою проблемою. Загалом, відповідь на більшість цього питання тут, здається, "це залежить". Ми могли б позначати параметри як якби хотіли, і максимізувати щодо них. Так само у нас може виникнути ситуація, коли ми максимізуємо щодо параметрів якби це був розумний спосіб наближення до проблеми.θyp(x|y;θ)θ


Причина, через яку я ввожу , це в книзі машинного навчання, яку я читаю, з даним набором даних , а - відповідне цільове значення, тому для пристосування моделі до цього набору даних я можу використовувати MLE для оцінки який параметр моделі, правда? θxyθ
авокадо

0

З посібника користувача STAN:

Якщо попередній рівномірний, задній режим відповідає максимальній оцінці ймовірності (MLE) параметрів. Якщо попередній не є рівномірним, задній режим іноді називають максимальною оцінкою заднього (MAP).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.