Я натрапив на ці слайди (слайд №16 та №17) на одному з онлайн-курсів. Викладач намагався пояснити, як Максимальна задня оцінка (MAP) насправді є рішенням , де є істинний параметр.θ ∗
Може хтось, будь ласка, пояснить, як це випливає?
Я натрапив на ці слайди (слайд №16 та №17) на одному з онлайн-курсів. Викладач намагався пояснити, як Максимальна задня оцінка (MAP) насправді є рішенням , де є істинний параметр.θ ∗
Може хтось, будь ласка, пояснить, як це випливає?
Відповіді:
Переглядаючи слайди, якими ви поділилися, мені здається, що ідея полягає в тому, щоб пояснити, як оцінка MAP може бути використана для оцінки різних властивостей задньої частини, таких як середнє значення, режим та медіана. Я спробую пояснити це в контексті генеральних байесівських оцінювачів, представлених у книзі Стівена М. Кей «Основи статистичної обробки сигналів» .
Для початку розглянемо три типи ризику (тобто функції витрат), пов'язані з оцінкою параметра :
- ; інакше
де , в якому θ є розрахункове значення , і θ є істинним параметром. За байєсівською оцінкою, мета полягає в тому, щоб мінімізувати очікуваний ризик, тобто:
Тепер, залежно від того, який ми обираємо, оцінювач надасть нам іншу властивість заднього. Наприклад, якщо ми обираємо перший випадок, , середнє мінімізація для - це середнє значення. Оскільки у вас є питання щодо функції індикатора , я торкнуся третього ризику, згаданого вище (який, якщо ви думаєте про це для , еквівалентний до використання індикатора).
Для випадку 3 вище:
який для мінімізований, коли відповідає режиму заднього.θ
У конкретному випадку простір параметрів є кінцевим чи незліченним нескінченним задній збиток, пов'язаний із втратою індикатора, дорівнює ймовірності помилки і вона мінімізована, коли максимальна задня ймовірність коректності . Це означає, що є режимом заднього розподілу або MAP.thetas ; = { & thetas ; 1 , & thetas ; 2 , ... } P ( & thetas ; ≠ & thetas ; | х ) Р ( & thetas ; = & thetas ; | х ) & thetas ;
Однак ця асоціація MAP та втрати є "народною теоремою", оскільки вона є невірною у більшості налаштувань, тобто вона не має значення для безперервних просторів параметрів, де для всіх , і це додатково суперечить результатам Друйхлета та Маріна (BA, 2007), які вказують, що ПДЧ в кінцевому рахунку залежить від вибору домінуючої міри. (Хоча міра Лебега неявно обрана як дефолт.)Р ( & thetas ; = & thetas ; | х ) = 0 & thetas ;
Наприклад, Еванс та Джанг опублікували архівний документ у 2011 році, де вони обговорювали зв'язок між MAP, найменшими відносними оцінками (або максимальною вірогідністю профілю) та функціями втрат. Суть справи полягає в тому, що ані оцінки MAP, ані MLE дійсно не виправдані теоретично-теоретичним підходом, принаймні, у просторі безперервних параметрів. І що домінуючий показник [довільно], обраний на просторі параметрів, впливає на значення MAP, як показали Druihlet та Marin у 2007 році. Вони починаються у кінцевому випадку з функцією втрати
Роберт Бассет та Хуліо Дериде опублікували документ у 2016 році, в якому обговорювали позицію ПДЧ в рамках байесівської теорії рішень.
"... ми надаємо контрприклад загальноприйнятому поняттю оцінювачів МАР як граничну оцінку Баєса, що має втрату 0-1".
Автори згадують мою книгу «Байєсівський вибір», де зазначено цю властивість без додаткових запобіжних заходів, і я повністю погоджуюся бути недбалим у цьому плані! Складність полягає в тому, що межа максимізаторів не обов'язково є максимальним межею. Документ містить приклад цього ефекту з попереднім, як зазначено вище, пов'язаним з розподілом вибірки, що не залежить від параметра. Запропоновані в ньому достатні умови полягають у тому, що задня щільність майже напевно є правильною або квазіконверсною.
Дивіться також альтернативну характеристику оцінок MAP за Бургером та Люккою як належних оцінок Баєса за іншим типом функцій втрат , хоча і досить штучним. Автори цього архівного документу починають з відстані на основі попереднього; називається відстань Брегмана, яка може бути квадратичною або ентропійною відстані залежно від попереднього. Визначення функції втрат, яка є сумішшю цієї відстані Брегмана та квадратичної відстані
Я наведу короткий зміст тексту, згаданого про цю проблему, у главі 5, Байєсова статистика, машинне навчання: ймовірнісна перспектива - Мерфі .
Скажімо, ми спостерігали деякі дані , і ми хочемо коментувати задній розподіл параметрів . Тепер точкова оцінка режиму цього заднього розподілу, яка широко відома як MAP, має певні недоліки.
На відміну від середнього або медіанного значення, це "нетиповий" момент, в тому сенсі, що він не враховує всі інші бали під час оцінки. У разі оцінки середнього / медіани, ми враховуємо всі інші моменти.
Таким чином, як і очікувалося, у сильно перекошених задніх розподілах MAP (і, відповідно, MLE) насправді не представляє насправді заднього.
Отже, як ми підсумовуємо задню частину, використовуючи оцінку точки, наприклад Середня / Середня / Режим?
Тут люди використовують теорію рішень - по суті, функцію втрати яка є втратою, якщо правда а - це наша оцінка. Ми можемо вибирати різноманітні функції втрат, і наша мета полягає в тому, щоб мінімізувати очікуване значення функції втрати.
Якщо функція втрати встановлена як , функція індикатора за всі часи, коли ми НЕ МОЖЕМО Оцініть правду, то мінімізація очікуваного значення функції втрати wrt дорівнює Максимізації цієї функції wrt . Звідси інтуїтивно можна здогадатися, що режим заднього розміру мінімізує очікуване значення функції втрат. Деталі цього розрахунку можна побачити у наведеній вище відповіді .Я ( & thetas ; ≠ & thetas ; | х ) & thetas ; I ( & thetas ; = & thetas ; | х ) & thetas ;