Чому максимальна ймовірність і не очікувана ймовірність?


22

Чому так часто буває отримання максимальних оцінок ймовірності параметрів, але ви практично ніколи не чуєте про очікувані оцінки параметрів ймовірності (тобто виходячи з очікуваного значення, а не режиму функції ймовірності)? Це в першу чергу з історичних причин, або з більш предметних технічних чи теоретичних причин?

Чи будуть суттєві переваги та / або недоліки у використанні очікуваних оцінок ймовірності, а не максимальної оцінки ймовірності?

Є деякі області , в яких очікувані оцінки ймовірності будуть зазвичай використовуються?


9
Очікуване значення щодо розподілу ймовірностей? Зазвичай ML застосовується в небайсейських аналізах, де (a) дані наводяться (і фіксуються) і (b) параметри трактуються як (невідомі) константи: взагалі немає випадкових змінних.
whuber

Відповіді:


15

Запропонований метод (після нормалізації ймовірності бути щільністю) еквівалентний оцінці параметрів, використовуючи плоскі попередні для всіх параметрів моделі та використовуючи середнє значення заднього розподілу як свого оцінювача. Бувають випадки, коли використання квартири попередньо може привести вас до неприємностей, оскільки ви не закінчите правильним заднім розподілом, тому я не знаю, як би ви виправили цю ситуацію тут.

Однак, якщо перебувати в умовах частого періоду, метод не має особливого сенсу, оскільки ймовірність не становить щільності ймовірності в більшості контекстів, і нічого випадкового не залишається, тому приймати очікування не має особливого сенсу. Тепер ми можемо просто формалізувати це як операцію, яку ми застосовуємо до ймовірності після факту отримання оцінки, але я не впевнений, як виглядатимуть частофілістські властивості цього оцінювача (у випадках, коли оцінка фактично існує).

Переваги:

  • Це може дати оцінку в деяких випадках, коли MLE насправді не існує.
  • Якщо ви не впертий, це може перенести вас у байєсівську обстановку (і це, мабуть, буде природним способом зробити висновок щодо такого типу оцінки). Так, залежно від ваших поглядів, це може бути не перевагою - але це для мене.

Недоліки:

  • Цього також не гарантується.
  • Якщо у нас немає простору опуклого параметра, оцінка може бути неприпустимим значенням параметра.
  • Процес не є інваріантним для репараметрізації. Оскільки процес еквівалентний встановленню площини перед вашими параметрами, він має різницю, якими є ці параметри (ми говоримо про використання як параметр чи ми використовуємо )σ 2σσ2

7
+1 Однією з величезних проблем при припусканні рівномірного розподілу параметрів є те, що проблеми МЛ часто переформулюються за допомогою використання інваріантності їх рішень для репараметрізації: однак це змінило б попередній розподіл параметрів. Таким чином, прийняття "очікування" так, ніби параметри мають рівномірний розподіл - це довільний артефакт і може призвести до помилкових і безглуздих результатів.
whuber

1
Влучне зауваження! Я також збирався це згадати, але забув піднести це під час введення решти.
Дасон

Натомість, максимальна ймовірність також не є інваріантною для репараметризації.
Ніл G

1
@NeilG Так? Можливо, ми маємо на увазі різні ідеї. Що ти маєш на увазі, коли ти це кажеш?
Дасон

p[0,1]α=β=2о[0,)α=β=2121314

12

Однією з причин є те, що максимальну оцінку ймовірності простіше: ви встановлюєте похідну вірогідності параметрів wrt в нуль і вирішуєте для параметрів. Прийняття очікування означає інтегрування ймовірності разів кожного параметра.

{хi}мк=Е(х)χ=Е(х2)

У деяких випадках максимальний параметр ймовірності такий же, як і очікуваний параметр ймовірності. Наприклад, середнє значення очікуваної ймовірності нормального розподілу вище таке ж, як і максимальна ймовірність, оскільки попереднє значення середнього значення є нормальним, а режим і середнє значення нормального розподілу збігаються. Звичайно, це не буде істинним для іншого параметра (однак ви його параметризуєте).

Я думаю, що найважливіша причина, мабуть, чому ви хочете очікувати параметрів? Зазвичай ви вивчаєте модель, і значення параметрів - це все, що вам потрібно. Якщо ви збираєтесь повернути одне значення, чи не максимальна ймовірність найкраща, яку ви можете повернути?


6
Стосовно вашого останнього рядка: Можливо - можливо, ні. Це залежить від вашої функції втрат. Я просто розігрувався з ідеєю Джейка, і, схоже, у випадку з X ~ Unif (0, theta), що max (X) * (n-1) / (n-2), що дає метод Джейка, має кращу МСЕ, ніж max (X), що є MLE (принаймні, імітації мають на увазі це, коли n> = 5). Очевидно, що приклад Unif (0, theta) не є типовим, але він показує, що існують інші ймовірні методи отримання оцінок.
Дасон

4
@Dason один стандарт (і потужний) частотна техніка для знаходження гарного ( тобто , допустимі) оцінок полягає в обчисленні Байеса оцінок для різних апріорних. (Див., Наприклад , книгу Лемана про оцінку балів.) Ви щойно відкрили один такий оцінювач.
whuber

Дякую за вашу відповідь Ніл! Ви говорите, що оцінювання параметрів за допомогою диференціації простіше порівняно з інтеграцією, і я, безумовно, бачу, як це було б справедливо для простих проблем (наприклад, рівня ручки та паперу або не надто далеко). Але для набагато складніших проблем, де нам доводиться покладатися на чисельні методи, хіба насправді не простіше використовувати інтеграцію? На практиці пошук MLE може означати досить складну проблему оптимізації. Чи не могло чисельне наближення інтеграла насправді бути обчислювальним простіше? Або це в більшості випадків малоймовірно?
Джейк Уестпад

@JakeWestfall: Як ви збираєтесь приймати очікування щодо простору параметрів, використовуючи числові методи? У складному просторі моделі з величезним простором параметрів ви не можете інтегруватись у всьому, оцінюючи ймовірність кожної моделі (налаштування параметра). Зазвичай ви збираєтеся запустити ЕМ, для якого оцінка параметрів відбувається на M-кроці, так що кожен параметр є однією з "простих проблем", як ви кажете, і для яких максимальні параметри ймовірності є прямими очікуваннями достатньої статистики.
Ніл Г

@NeilG Ну, Дейсон вказує, що метод, про який я обговорюю, (після нормалізації) еквівалентний Байєсовій оцінці з плоскою до цього, а потім використовує заднє середнє значення як оцінку. Отже, у відповідь на "Як ви збираєтесь приймати очікування щодо простору параметрів, використовуючи числові методи?" Я думаю, я думав, що ми можемо використовувати один із таких методів: bayesian-inference.com/numericalapproximation Будь-які думки з цього приводу?
Джейк Уестпад

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.