Оцінка MLE проти MAP, коли використовувати який?


14

MLE = Максимальна оцінка ймовірності

MAP = Максимум a posteriori

MLE інтуїтивно зрозумілий / наївний тим, що він починається лише з ймовірності спостереження за даним параметром (тобто функцією ймовірності) і намагається знайти параметр, що найкраще відповідає спостереженню . Але це не враховує попередніх знань.

MAP видається більш розумним, оскільки він враховує попередні знання за правилом Байєса.

Тут пов'язане питання, але відповідь не є ґрунтовним. /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d

Отже, я думаю, що ПДЧ набагато краще. Це так? І коли я повинен використовувати який?

Відповіді:


18

Якщо попередня ймовірність задана як частина налаштування проблеми, тоді використовуйте цю інформацію (тобто використовуйте MAP). Якщо така попередня інформація не надана або припускається, то MAP неможливий, а MLE - розумний підхід.


9
Варто додати, що MAP з плоскими пріорами еквівалентно використанню ML.
Тім

Також варто зазначити, що якщо ви хочете математично "зручно" до, ви можете використовувати кон'югат попереднього, якщо такий існує для вашої ситуації.
боб

8

Байєсець погодився б з вами, а частофіліст - ні. Це питання думки, перспективи та філософії. Я думаю, що це робить багато шкоди статистичній спільноті, намагаючись стверджувати, що один метод завжди кращий за інший. Багато проблем матимуть байєсівські та частолістські рішення, подібні до тих пір, поки байєсівські не мають занадто сильних рівнів.


7
Це не просто питання думки. Існують певні ситуації, коли один оцінювач кращий за інший.
Том Мінка

2
@TomMinka Я ніколи не говорив, що не буває ситуацій, коли один метод кращий за інший! Я просто відповів на загальні заяви ОП, такі як "ПДЧ здається більш розумним". Таке твердження еквівалентно твердженню того, що байєсівські методи завжди кращі, це твердження, з яким ви і я, мабуть, не погоджуєтесь.
jsk

жарт правильний. Байєсівський і частолістський підходи філософсько відрізняються. Тож суворий частоліст вважав байєсівський підхід неприйнятним.
Майкл Р. Черник

2

Якщо припустити, що ви маєте точну попередню інформацію, MAP краще, якщо проблема має нульову функцію втрат на оцінці. Якщо збиток не дорівнює нулю (а в багатьох реальних проблемах це не так), то може статися, що MLE досягне менших очікуваних втрат. У цих випадках було б краще не обмежуватися MAP та MLE як єдиними двома варіантами, оскільки вони обидва неоптимальні.


Оцінювач MAP, якщо параметр залежить від параметризації, тоді як втрата "0-1" не має. 0-1 в лапках, тому що, на мій перерахунок, всі оцінки зазвичай дають втрату 1 з ймовірністю 1, і будь-яка спроба побудувати наближення знову вводить проблему параметризації
хлопець

1
На мою думку, втрата нуля-один дійсно залежить від параметризації, тому немає невідповідності.
Том Мінька

0

Коротка відповідь @bean дуже добре пояснює це. Однак я хотів би вказати на розділ 1.1 паперового відбору проб Гіббса для непосвячених Ресниками та Хардісті, який розглядає питання більш глибоко. Я пишу кілька рядків з цього документу з дуже незначними модифікаціями (ця відповідь повторює кілька речей, які ОП знає заради повноти)

MLE

Формально MLE виробляє вибір (параметр моделі), який, найімовірніше, генерує спостережувані дані.

КАРТА

Оцінений ПДЧ - це вибір, який, швидше за все, з огляду на спостережувані дані. На відміну від MLE, оцінка MAP застосовує правило Байєса, так що наша оцінка може враховувати попередні знання про те, що ми очікуємо, щоб наші параметри були у вигляді попереднього розподілу ймовірностей.

Виловити

Оцінки MLE та MAP дають нам найкращу оцінку відповідно до їх відповідних визначень "кращих". Але зауважте, що використання однієї оцінки - чи то MLE чи MAP - викидає інформацію. В принципі, параметр може мати будь-яке значення (від домену); може ми не отримаємо кращих оцінок, якби врахували весь розподіл, а не лише одне оцінене значення параметра? Якщо ми це зробимо, ми використовуємо всю інформацію про параметр, який ми можемо витягнути зі спостережуваних даних, X.

Тож з цим уловом ми можемо захотіти використовувати жоден із них. Крім того, як уже згадували боб і Тім, якщо вам доведеться скористатися одним із них, використовуйте MAP, якщо у вас був попередній. Якщо у вас немає пріорів, MAP зменшується до MLE. Спрямовані пріорі допоможуть вирішити проблему аналітичним способом, інакше використовувати Gibbs Sampling.


0

θ^MAP=argmaxθlogP(θ|D)=argmaxθlogP(D|θ)P(θ)P(D)=argmaxθlogP(D|θ)P(θ)=argmaxθlogP(D|θ)log-likelihood+logP(θ)regularizer

Попередній трактується як регуляризатор, і якщо ви знаєте попередній розподіл, наприклад, Гауссін ( ) в лінійній регресії, і краще додати це регуляризація для кращих показників.exp(λ2θTθ)


-2

Якщо даних менше, і у вас є пріори - "ПОДІЙТЕ КАРТУ". Якщо у вас багато даних, MAP перейде до MLE. Таким чином, у випадку багато сценаріїв даних завжди краще робити MLE, а не MAP.


1
Це не так просто.
Майкл Р. Черник

@MichaelChernick я можу помилитися. Я читав це в школі міста. Я прошу вас виправити мене там, де я пішов не так.
Heisenbug

Філософсько різняться частістський підхід і байєсівський підхід. Частотний підхід оцінює значення параметрів моделі на основі повторної вибірки. Байєсівський підхід трактує параметр як випадкову змінну. Отже, в баєсівському підході ви отримуєте задній розподіл параметра, що поєднує попередній розподіл з даними. MAP шукає найвищий пік заднього розподілу, в той час як MLE оцінює параметр лише з огляду на функцію ймовірності даних.
Майкл Р. Черник

@MichaelChernick - Дякую за Ваш внесок. Але чи MAP не поводиться як MLE, коли ми маємо суттєві дані. Якщо ми порушимо вираз MAP, отримаємо також термін MLE. При великій кількості даних термін MLE в MAP приймає попередній.
Heisenbug

Це залежить від попереднього та обсягу даних. Вони можуть дати подібні результати у великих зразках. Різниця в тлумаченні. Мій коментар мав на меті показати, що це не так просто, як ви це робите. З невеликою кількістю даних це не просто питання вибору MAP, якщо у вас є попередній. Погано обраний попередник може призвести до поганого розподілу заднього відділу і, отже, поганого ПДЧ.
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.