Коли працює максимальна ймовірність, а коли ні?

Мене плутає метод максимальної ймовірності порівняно з, наприклад, обчисленням середнього арифметичного.

Коли і чому максимальна ймовірність дає "кращі" оцінки, ніж, наприклад, середнє арифметичне? Як це можна перевірити?

maximum-likelihood

— mavavilj
джерело

+1 Це гарне запитання про будь-яку статистичну процедуру.

— whuber

Я не думаю, що це питання занадто неясне. Звичайно, ОП незрозуміло, але саме тому вони запитують. Питання, що стосуються природи MLE та арифметичних засобів, слід вирішити з хорошою відповіддю.

— gung - Відновити Моніку

Що ви маєте на увазі під «кращим»? І чому середнє арифметичне було б хорошим оцінником довільного параметра?

— Сіань

На питання не можна відповісти, не встановивши спочатку визначення "кращого", тобто функції втрати чи іншого критерію, що дозволяє порівнювати оцінки. Наприклад, MLE ефективний, а це означає, що немає оцінювача з меншою асимптотичною дисперсією (за деяких умов регулярності). Наприклад, MLE може бути неприйнятним, як це демонструє ефект Штейна , це означає, що існують оцінки з меншим квадратичним ризиком для всіх значень параметра за деякими обмеженнями щодо розподілу вибірки та розмірності параметра.

— Сіань

@ Xi'an Це звучить як основа відповіді.

— whuber

Відповіді:

Хоча середнє арифметичне може звучати як "природний" оцінювач, можна запитати, чому слід віддати перевагу MLE! Єдине впевнене властивість, пов'язане з середнім арифметичним, - це те, що це об'єктивний оцінювач коли це очікування визначено. (Поміркуйте про розподіл Коші як протилежний приклад.) Пізніше дійсно користується широким спектром властивостей в умовах регулярності на функції ймовірності. Для запозичення на сторінці вікіпедії є MLE $\bar{x}$ $\mathbb{E}[X]$

послідовний
асимптотично нормальний
ефективний тим, що досягає мінімальної асимптотичної дисперсії
інваріант під бієктивними перетвореннями
всередині набору параметрів навіть для обмежених наборів параметрів

У порівнянні з середнім арифметичним, більшість цих властивостей задовольняються також для достатнього регулярного розподілу. За винятком 4 і 5. У випадку експоненціальних сімей MLE і середнє арифметичне є однаковими для оцінки параметра в середній параметризації (але не для інших параметрів). І MLE існує для вибірки з розподілу Коші.

$x\sim\mathcal{N}_p(\theta,I_p)$ $p\ge 3$

— Сіань
джерело

Просто для уточнення про молоко - перераховані 5 властивостей знаходяться в межах передбачуваної моделі для населення.

— ймовірністьлогічний

n^{'} s

$n's$

n

$n$

0

$0$

2 (p - 2) σ^{2} / n

$2(p-2)\sigma^2/n$

p

$p$

σ^{2}

$\sigma^2$

Давайте інтерпретуємо "обчислення середнього арифметичного" як оцінку за допомогою Методу моментів (МО). Я вважаю, що це вірне початковому питанню, оскільки метод замінює вибіркові середні значення теоретичними. Він також стосується занепокоєння @ Xi'ana щодо довільного параметра (від довільної моделі).

Якщо ви все ще зі мною, то я думаю, що прекрасне місце - це приклади, де метод моментів може перемогти максимальну ймовірність у невеликих зразках? У тексті запитання вказується, що "Оцінки максимальної ймовірності (MLE) є асимптотично ефективними; ми бачимо практичний підсумок в тому, що вони часто роблять краще, ніж оцінка моментів (MoM) оцінок (коли вони відрізняються)", і шукає конкретні випадки, коли оцінювачі MoM досягти меншої середньої квадратичної помилки, ніж її аналог MLE. Кілька прикладів, які надаються, знаходяться в контексті лінійної регресії, двопараметричного зворотного гауссова розподілу та асиметричного експоненціального розподілу потужності.

Таке уявлення про "асимптотичну ефективність" означає, що оцінки максимальної ймовірності, ймовірно, близькі до використання даних з максимальним потенціалом (для оцінки відповідного параметра), це гарантія, яку ви не отримаєте з методу моментів загалом. Хоча максимальна ймовірність не завжди «краща», ніж робота з середніми показниками, ця властивість ефективності (якщо тільки в межах межі) робить її методом переходу до більшості лікарів. Звичайно, контрагент може стверджувати, що зі збільшенням розміру наборів даних, якщо ви вказуєте на потрібну ціль із функцією середніх значень, йдіть із нею.

— Бен Огорек
джерело

Є кілька відомих прикладів, коли максимальна ймовірність (ML) не дає найкращого рішення. Дивіться доповідь Люсьєна Ле Кама 1990 року: "Максимальна ймовірність: вступ" [1] , що з його запрошених лекцій в Університеті. штату Меріленд.

Приклад, який мені найбільше подобається, тому що це просто, це такий:

$X_j$ $Y_j$ $j = 1,...,n$ $X_j\sim N(\mu_j,\sigma^2)$ $Y_j\sim N(\mu_j,\sigma^2)$ $j$ $X_j$ $Y_j$ $j$ $\sigma^2$

Я не зіпсую задоволення, даючи вам відповідь, але (не дивно) є два способи вирішити це за допомогою ML, і вони дають різні рішення. Одне - «середнє арифметичне» залишків у квадраті (як можна було б очікувати), а друге - половина середнього арифметичного. Ви можете знайти відповідь тут на моїй сторінці Github.

— іднавід
джерело