Чи використовуємо ми колись максимальну оцінку ймовірності?


14

Мені цікаво, чи максимальна оцінка вірогідності коли-небудь використовується в статистиці. Ми дізнаємось про концепцію, але цікаво, коли вона насправді використовується. Якщо припустити розподіл даних, ми знайдемо два параметри, один для середнього та один для дисперсії, але чи реально ви їх використовуєте в реальних ситуаціях?

Хтось може сказати мені простий випадок, у якому він використовується?


33
Це найбільш поширений метод оцінки. the
ДжонК

3
Я намагався запитати, коли ми не використовуємо MLE
Haitao Du

4
логістична регресія. Пуассонова регресія. OLS - це MLE, коли помилки вважаються нормальними. Гамма-регресія. Будь-який класичний GLM справді. Оцінка середнього показника від нормальної сукупності. Оцінка ймовірності успіху за допомогою ряду біноміальних випробувань. Оцінка частоти пойсонових подій. Я міг би продовжити ...
GoF_Logistic

4
Цей дуже вузький пошук нашого сайту дає сотні прикладів фактичного використання.
whuber

6
@ hxd1011 Ви не використовуєте MLE, коли ви не використовуєте його методи для отримання відхилень оцінок або для обчислення інтервалів довіри, прогнозування або допусків, навіть коли оцінювач, який ви використовуєте, може статися, що він погоджується з оцінником MLE. Наприклад, ви не використовуєте MLE під час запуску будь-якого t-тесту. Ви часто не використовуєте його, коли застосовуєте неупереджені оцінки. По-філософськи, ви б не використовували MLE, коли піклуєтесь про функцію втрат або маєте попередній розподіл.
whuber

Відповіді:


25

Мені цікаво, чи максимальна оцінка вірогідності коли-небудь використовується в статистиці.

Звичайно! Насправді досить багато - але не завжди.

Ми дізнаємось про концепцію, але цікаво, коли вона насправді використовується.

Коли у людей є параметрична модель розподілу, вони досить часто вибирають використовувати максимальну оцінку ймовірності. Коли модель правильна, існує ряд зручних властивостей оцінок максимальної вірогідності.

Для одного прикладу - використання узагальнених лінійних моделей досить поширене, і в цьому випадку параметри, що описують середнє значення, оцінюються за максимальною вірогідністю.

Може статися, що одні параметри оцінюються за максимальною вірогідністю, а інші - ні. Наприклад, розглянемо наддисперсну Poisson GLM - параметр дисперсії не буде оцінено за максимальною ймовірністю, оскільки MLE не корисний у цьому випадку.

Якщо припустити розподіл даних, ми знайдемо два параметри

Ну, іноді у вас може бути два, але іноді у вас є один параметр, іноді три-чотири і більше.

один для середнього і один для дисперсії,

Ви, можливо, думаєте про конкретну модель? Це не завжди так. Розглянемо оцінку параметра експоненціального розподілу чи розподілу Пуассона, або біноміального розподілу. У кожному з цих випадків є один параметр, а дисперсія є функцією параметра, який описує середнє значення.

Або розглянемо узагальнений гамма-розподіл , який має три параметри. Або бета-розподіл з чотирма параметрами , який має (можливо, не дивно) чотири параметри. Зауважимо також, що (залежно від конкретної параметризації) середнє значення або дисперсія або обидва можуть бути представлені не одним параметром, а функціями кількох з них.

Наприклад, гамма-розподіл, для якого є три параметризації, які бачать досить поширене використання - два найпоширеніших з яких мають як середнє, так і дисперсійне функції двох параметрів.

Як правило, в регресійній моделі, або в GLM, або в моделі виживання (серед багатьох інших типів моделі) модель може залежати від декількох предикторів, і в цьому випадку розподіл, пов'язаний з кожним спостереженням за моделлю, може мати один власний параметр (або навіть декілька параметрів), які пов'язані з багатьма змінними предиктора ("незалежні змінні").


5
"Коли люди мають параметричну модель розподілу." Не забувайте про непараметричну оцінку максимальної ймовірності, щоб включити емпіричну ймовірність.
Марк Л. Стоун

3
@Mark Відносно рідше. Я додам слово до своєї відповіді.
Glen_b -Встановіть Моніку

Чи можемо ми використовувати максимальну оцінку ймовірності, навіть якщо вважати, що розподіл, наприклад, є нормальним? Я думаю, нам це не потрібно, але ми все одно можемо ним скористатися, я прав?
користувач122358

@ user122358 Glen and Mark вже відповіли вам. Ви можете припустити розподіл чи ні. Більшу частину часу ви берете на себе розподіл і, таким чином, функцію вірогідності.
HelloWorld

3
"Коли люди мають параметричну модель розподілу." Не забувайте напівпараметричну оцінку максимальної ймовірності, щоб включити часткову ймовірність. ;)
Scortchi

8

Хоча максимізація оцінювачів ймовірності може виглядати підозріло, враховуючи припущення щодо розподілу даних, часто використовуються Квазі Максимальні Оцінювачі Ймовірності. Ідея полягає в тому, щоб почати з розподілу і вирішити для MLE, потім видалити явне припущення щодо розподілу і замість цього подивитися на те, як працює ваш оцінювач за більш загальних умов. Таким чином, Quasi MLE просто стає розумним способом отримання оцінки, і основна частина роботи виводить властивості оцінювача. Оскільки припущення щодо розподілу падають, квазі MLE, як правило, не має приємних властивостей ефективності.

x1,x2,...,xnXXN(μ,σ2)σ^2=n1(xix¯)2 . Тоді ми можемо задавати питання, на кшталт яких умовσ^2 послідовний оцінювач, чи є неупереджений (це не так), чи він кореневий n послідовний, який це асимптотичний розподіл тощо.


1
Крім того, ви можете перевірити цю тему щодо інтуїції за Quasi MLE.
Річард Харді

5

Максимальна оцінка ймовірності часто використовується в машинному навчанні для навчання:

Зауважте, що в деяких випадках варто віддати перевагу регуляризації, яка іноді еквівалентна максимальній післяорієнтованій оцінці , наприклад, чому перо для Лассо еквівалентно подвійній експоненції (Лапласу)? .


3

Хтось може сказати мені простий випадок, у якому він використовується?

Дуже типовий випадок - у логістичній регресії. Логістична регресія - це техніка, яка часто використовується в машинному навчанні для класифікації точок даних. Наприклад, логістичну регресію можна використовувати для класифікації того, чи електронний лист є спамом чи не спамом, або класифікувати, чи є у людини захворювання чи ні.

Зокрема, модель логістичної регресії говорить про те, що ймовірність є точкою даних хi в 1 класі є наступним: годθ(хi)=P[yi=1]=11+eθTxi

The parameter vector θ is typically estimated using MLE.

Specifically, using optimization methods, we find the estimator θ^ such that the expression i=1nyilog(hθ^(xi))+(1yi)log(1hθ^(xi)) is minimized. This expression is the negative log likelihood, so minimizing this is equivalent to maximizing the likelihood.


1

We are using MLE all the time, but we may not feel it. I will give two simple examples to show.

Example 1

If we observe coin flip result, with 8 head out of 10 flips (assuming iid. from Bernoulli), how to guess the parameter θ (prob of head) of the coin? We may say θ=0.8, using "counting".

Why use counting? this is actually implicitly using MLE! Where the problem is

Maximizeθ   θ8(1θ)2

To solve the equation, we will need some calculus, but the conclusion is counting.

Example 2

How would we estimate a Gaussian distribution parameters from data? We use empirical mean as estimated mean and empirical variance as estimated variance, which is also coming from MLE!.


6
Example 1 is also a Bayes solution and a method of moments (MM) solution (and probably it's the solution using other procedures as well). Example 2 is the MM solution. It would be much more convincing to exhibit procedures that are exclusively MLE--for otherwise one wouldn't ever need MLE.
whuber

Why example 1 becomes a Bayes solution and Example 2 becomes the MM solution? What is MM, by the way?
user122358

@user122358 MM is the method of moments. See here, for instance: en.wikipedia.org/wiki/Method_of_moments_(statistics)
jld

0

Some maximum likelihood uses in wireless communication:

  • Decoding of digital data from noisy received signals, with or without redundant codes.
  • Estimation of time-, phase-, and frequency-offsets in receivers.
  • Estimation of the (parameters of the) propagation channel.
  • Estimation of delay, angle of arrival, and Doppler shift (e.g., radar).
  • Estimation of a mobile position (e.g., GPS).
  • Estimation of clock offsets for synchronization of all kinds of distributed settings.
  • A multitude of calibration procedures.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.