MAP - це рішення


10

Я натрапив на ці слайди (слайд №16 та №17) на одному з онлайн-курсів. Викладач намагався пояснити, як Максимальна задня оцінка (MAP) насправді є рішенням , де є істинний параметр.θ L(θ)=I[θθ]θ

Може хтось, будь ласка, пояснить, як це випливає?

Редагувати: Додано слайди, якщо посилання перерветься. введіть тут опис зображення

введіть тут опис зображення

Відповіді:


3

Переглядаючи слайди, якими ви поділилися, мені здається, що ідея полягає в тому, щоб пояснити, як оцінка MAP може бути використана для оцінки різних властивостей задньої частини, таких як середнє значення, режим та медіана. Я спробую пояснити це в контексті генеральних байесівських оцінювачів, представлених у книзі Стівена М. Кей «Основи статистичної обробки сигналів» .

Для початку розглянемо три типи ризику (тобто функції витрат), пов'язані з оцінкою параметра :θ

  1. C(e)=e2
  2. C(e)=|e|
  3. ifδ<e<δ,C(e)=0 ; інакшеC(e)=1

де e=θθ^ , в якому θ є розрахункове значення , і θ є істинним параметром. За байєсівською оцінкою, мета полягає в тому, щоб мінімізувати очікуваний ризик, тобто:θ^θ

E[C(e)]=XθC(e)p(X,θ)dθdX=X[θC(e)p(θ|X)dθ]p(X)dX

θminθθC(e)p(θ|X)dθ

Тепер, залежно від того, який ми обираємо, оцінювач надасть нам іншу властивість заднього. Наприклад, якщо ми обираємо перший випадок, , середнє мінімізація для - це середнє значення. Оскільки у вас є питання щодо функції індикатора , я торкнуся третього ризику, згаданого вище (який, якщо ви думаєте про це для , еквівалентний до використання індикатора).C(e)C(e)=e2θθC(e)p(θ|X)dθI[θ^θ]δ0

Для випадку 3 вище:

θC(e)p(θ|X)dθ=θ^δp(θ|X)dθ+θ^+δp(θ|X)dθ=1θ^+δθ^+δp(θ|X)dθ

який для мінімізований, коли відповідає режиму заднього.δ0θθ^


2
Дякую за чудове пояснення. Також майбутні читачі можуть прочитати приблизно те саме в подібному підручнику: Глава 5 « Machine_Learning a Probabilistic Perspective » Кевіна Мерфі
honeybadger

Чи можете ви вказати деталі цього обмежуючого аргументу у ? Ви маєте на увазі обмеження процедури, коли переходить до нуля або межа задньої втрати? δδδ
Сіань

Я маю на увазі межу очікування . E[C(e)]
idnavid

10

У конкретному випадку простір параметрів є кінцевим чи незліченним нескінченним задній збиток, пов'язаний із втратою індикатора, дорівнює ймовірності помилки і вона мінімізована, коли максимальна задня ймовірність коректності . Це означає, що є режимом заднього розподілу або MAP.thetas ; = { & thetas ; 1 , & thetas ; 2 , ... } P ( & thetas ; ≠ & thetas ; | х ) Р ( & thetas ; = & thetas ; | х ) & thetas ;Θ

Θ={θ1,θ2,}
P(θ^θ|x)P(θ^=θ|x)θ^

Однак ця асоціація MAP та втрати є "народною теоремою", оскільки вона є невірною у більшості налаштувань, тобто вона не має значення для безперервних просторів параметрів, де для всіх , і це додатково суперечить результатам Друйхлета та Маріна (BA, 2007), які вказують, що ПДЧ в кінцевому рахунку залежить від вибору домінуючої міри. (Хоча міра Лебега неявно обрана як дефолт.)Р ( & thetas ; = & thetas ; | х ) = 0 & thetas ;01P(θ^=θ|x)=0θ^

Наприклад, Еванс та Джанг опублікували архівний документ у 2011 році, де вони обговорювали зв'язок між MAP, найменшими відносними оцінками (або максимальною вірогідністю профілю) та функціями втрат. Суть справи полягає в тому, що ані оцінки MAP, ані MLE дійсно не виправдані теоретично-теоретичним підходом, принаймні, у просторі безперервних параметрів. І що домінуючий показник [довільно], обраний на просторі параметрів, впливає на значення MAP, як показали Druihlet та Marin у 2007 році. Вони починаються у кінцевому випадку з функцією втрати

L(θ,d)=I{Ψ(θ)d)/πΨ(Ψ(θ))
де вони розглядають оцінку перетворення Ψ (θ) по d, обернено зваженому граничним до цього перетворення. У спеціальному випадку трансформації тотожності ця функція втрати призводить до MLE як Байєса. У загальному випадку оцінка Байєса є оцінкою максимальної ймовірності профілю (LRSE). Однак ця функція втрат не узагальнює для незмінно нескінченних (і очевидно безперервних) просторів параметрів, і в таких налаштуваннях автори можуть надати LRSE лише як обмеження процедур Байєса. Функція втрат, прийнята в обчислювальному випадку, наприклад,
L(θ,d)=I{Ψ(θ)d}/max{η,πΨ(Ψ(θ))}
при цьому пов'язане зменшення до нуля. У безперервному випадку індикатор більше не працює, тому вибір, зроблений авторами, полягає в тому, щоб дискретизувати простір by (Θ) конкретним вибором перегородки кульок, діаметр яких λ іде до нуля. У дусі Друйхлета та Маріна цей вибір залежить від метрики (та подальших умов регулярності). Крім того, сам LRSE залежить від обраної версії для густин (якщо не від домінуючої міри), якщо одна скрізь нав'язує рівність Байєса скрізь, коли і
maxψπψ(ψ|x)/πψ(θ)
πψ(ψ|x)/πψ(θ)=f(x|ψ)/m(x)
f(x|ψ)={θ;Ψ(θ)=ψ}f(x|θ)π(θ)dθ
m(x)=f(x|θ)π(θ)dθ
в дусі нашої парадоксальної папери Savage-Dickey .

Роберт Бассет та Хуліо Дериде опублікували документ у 2016 році, в якому обговорювали позицію ПДЧ в рамках байесівської теорії рішень.

"... ми надаємо контрприклад загальноприйнятому поняттю оцінювачів МАР як граничну оцінку Баєса, що має втрату 0-1".

Автори згадують мою книгу «Байєсівський вибір», де зазначено цю властивість без додаткових запобіжних заходів, і я повністю погоджуюся бути недбалим у цьому плані! Складність полягає в тому, що межа максимізаторів не обов'язково є максимальним межею. Документ містить приклад цього ефекту з попереднім, як зазначено вище, пов'язаним з розподілом вибірки, що не залежить від параметра. Запропоновані в ньому достатні умови полягають у тому, що задня щільність майже напевно є правильною або квазіконверсною.

Дивіться також альтернативну характеристику оцінок MAP за Бургером та Люккою як належних оцінок Баєса за іншим типом функцій втрат , хоча і досить штучним. Автори цього архівного документу починають з відстані на основі попереднього; називається відстань Брегмана, яка може бути квадратичною або ентропійною відстані залежно від попереднього. Визначення функції втрат, яка є сумішшю цієї відстані Брегмана та квадратичної відстані

||K(u^u)||2+2Dπ(u^,u)
виробляє MAP як оцінювач Байєса. Можна все ще замислюватися про домінуючу міру, але як функція втрат, так і отриманий оцінювач явно залежать від вибору домінуючої міри… (Втрата залежить від попереднього, але це не є недоліком як такого).

1

Я наведу короткий зміст тексту, згаданого про цю проблему, у главі 5, Байєсова статистика, машинне навчання: ймовірнісна перспектива - Мерфі .

Скажімо, ми спостерігали деякі дані , і ми хочемо коментувати задній розподіл параметрів . Тепер точкова оцінка режиму цього заднього розподілу, яка широко відома як MAP, має певні недоліки.Xp(θ|X)

На відміну від середнього або медіанного значення, це "нетиповий" момент, в тому сенсі, що він не враховує всі інші бали під час оцінки. У разі оцінки середнього / медіани, ми враховуємо всі інші моменти.

Таким чином, як і очікувалося, у сильно перекошених задніх розподілах MAP (і, відповідно, MLE) насправді не представляє насправді заднього.

Отже, як ми підсумовуємо задню частину, використовуючи оцінку точки, наприклад Середня / Середня / Режим?

Тут люди використовують теорію рішень - по суті, функцію втрати яка є втратою, якщо правда а - це наша оцінка. Ми можемо вибирати різноманітні функції втрат, і наша мета полягає в тому, щоб мінімізувати очікуване значення функції втрати.L(θ,θ^)θθ^

Якщо функція втрати встановлена ​​як , функція індикатора за всі часи, коли ми НЕ МОЖЕМО Оцініть правду, то мінімізація очікуваного значення функції втрати wrt дорівнює Максимізації цієї функції wrt . Звідси інтуїтивно можна здогадатися, що режим заднього розміру мінімізує очікуване значення функції втрат. Деталі цього розрахунку можна побачити у наведеній вище відповіді .Я ( & thetas ; ≠ & thetas ; | х ) & thetas ; I ( & thetas ; = & thetas ; | х ) & thetas ;L(θ,θ^)I(θ^θ|x)θI(θ^=θ|x)θ

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.