Чи є приклад, коли MLE виробляє упереджену оцінку середнього?


17

Чи можете ви навести приклад оцінки MLE середнього значення, яке є упередженим?

Я не шукаю прикладу, який загалом порушує оцінювачі MLE, порушуючи умови регулярності.

Усі приклади, які я бачу в Інтернеті, відносяться до дисперсії, і я не можу знайти щось, що стосується середнього.

EDIT

@MichaelHardy подав приклад, коли ми отримуємо необ’єктивну оцінку середнього рівня рівномірного розподілу за допомогою MLE за певною запропонованою моделлю.

Однак

https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint

припускає, що MLE - це рівномірно мінімальний об'єктивний оцінювач середнього рівня, чітко за іншою запропонованою моделлю.

На даний момент мені все ще не дуже зрозуміло, що означає оцінка MLE, якщо це дуже гіпотезована модель, що залежить від того, щоб сказати вибірковий середній оцінювач, який є нейтральним для моделі. Зрештою, мені цікаво оцінити чисельність населення і мені не дуже важливо оцінювати параметр гіпотезованої моделі.

EDIT 2

Як @ChristophHanck показав модель з додатковою інформацією, ввів зміщення, але не встиг зменшити MSE.

У нас також є додаткові результати:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (слайд 2) http: / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (слайд 5)

"Якщо існує найефективніший об'єктивний оцінювач θθ з θ (тобто ˆθ є неупередженим, а його дисперсія дорівнює CRLB), то метод максимальної ймовірності оцінки дасть це."

"Більше того, якщо ефективний оцінювач існує, це оцінювач ML".

Оскільки MLE з вільними параметрами моделі є неупередженим та ефективним, це визначення "максимальний вірогідність оцінки"?

EDIT 3

У @AlecosPapadopoulos є приклад із напіврозподіленим розподілом на математичному форумі.

/math/799954/can-the-maximum-likelihood-estimator-be-unbiased-and-fail-to-achieve-cramer-rao

Це не прив'язує жодних його параметрів, як у єдиному випадку. Я б сказав, що це вирішує, хоча він не продемонстрував упередженості середнього оцінювача.


10
Середнє значення рівномірного на нуль і тета.
Крістоф Ганк

1
Я не можу дотримуватися вашої різниці між "оцінкою чогось про населення" та "параметром гіпотезованої моделі". У всій параметричній статистиці ми параметризуємо сукупність за деякими параметрами. Звичайно, ми можемо зіткнутися з проблемами неправильної уточнення, але це, мабуть, не має відношення до проблеми, про яку йдеться.
Крістоф Ганк

5
Наприклад, що популяція може характеризуватися своїми параметрами / моментами, такими як середня величина та дисперсія (яких було б достатньо, наприклад, для нормальної сукупності). І: Я не думаю, що люди з вами більш-менш педантичні, ніж з ким-небудь ще на цьому форумі.
Крістоф Ганк

2
Якщо ви відчуваєте незадоволення щодо очевидних хитрощів перемикання між "параметром" і "середнім", дозвольте мені визначити певний негативний розподіл з точки зору його середнього , з щільністю 1μ на його підтримку[0,2мк]...12μ[0,2μ]
Срібна рибка

1
Щодо редагування 2, багато з цих результатів отримані в умовах регулярності, які не задовольняються для єдиного прикладу, обговореного в цій темі, для якого вибірковий простір залежить від параметра.
Крістоф Ганк

Відповіді:


32

Крістоф Ганк не опублікував деталей запропонованого прикладу. Я вважаю, що він означає рівномірний розподіл на інтервалі виходячи з iid вибірки X 1 , , X n[0,θ],X1,,Xn of size more than n=1.

Середнє значення є θ/2.

Середнє значення MLE становить max{X1,,Xn}/2.

Це упереджено, оскільки тому E ( max / 2 )Pr(max<θ)=1,E(max/2)<θ/2.

PS: Мабуть, слід зазначити, що найкращий неупереджений оцінювач середнього - це не вибіркове середнє значення, а скоріше n + 1θ/2Середнє значення вибірки є хижим оцінкоюθ/2,оскільки для деяких зразків середнє значення вибірки менше1

n+12nmax{X1,,Xn}.
θ/2і дляθ/2явно неможливобути меншеmax/2.кінець PS12max{X1,,Xn},θ/2max/2.

Я підозрюю, що поширення Парето - це ще один такий випадок. Ось міра ймовірності:

α(κx)α dxx for x>κ.
The expected value is αα1κ. The MLE of the expected value is
nni=1n((logXi)log(min))min
where min=min{X1,,Xn}.

I haven't worked out the expected value of the MLE for the mean, so I don't know what its bias is.


12
Cagdas, It's not legitimate to ask for a countexample and then deny that you would propose something else! It's like asking for an example of a fruit that is not red, being shown a blueberry, and then saying it doesn't count because you don't like blueberries.
whuber

7
That's not relevant to the question you asked.
whuber

8
@CagdasOzgenc : Whether the MLE is biased or not depends on the model. There's no such thing as an MLE without a model. And if you alter the model, you alter the MLE.
Michael Hardy

8
@CagdasOzgenc Here's a socratic question: the sample mean is an unbiased estimator of what? You need a model to have a parameter to be estimating.
Matthew Drury

9
The mean of an i.i.d. sample is an unbiased estimator of the population mean, but one cannot speak of a maximum-likelihood estimator of anything without more structure than what is needed to speak of an unbiased estimator of something.
Michael Hardy

18

Here's an example that I think some may find surprising:

In logistic regression, for any finite sample size with non-deterministic outcomes (i.e. 0<pi<1), any estimated regression coefficient is not only biased, the mean of the regression coefficient is actually undefined.

This is because for any finite sample size, there is a positive probability (albeit very small if the number of samples is large compared with the number of regression parameters) of getting perfect separation of outcomes. When this happens, estimated regression coefficients will be either or . Having positive probability of being either or implies the expected value is undefined.

For more on this particular issue, see the Hauck-Donner-effect.


1
This is quite clever. I wonder if the MLE of logistic regression coefficients is unbiased conditional on the nonoccurence of the Hauck-Donner effect?
gung - Reinstate Monica

3
@gung: Short answer: ignoring the Hauck-Donner effect, there is still upward bias in absolute regression coefficients (i.e. negative coefficients have downward bias, positive have upward bias). Interestingly, there appears to be a bias toward 0.5 in estimated probabilities. I've started writing up about it on this post, but haven't put up my results on the biases of the estimated probabilities.
Cliff AB

10

Although @MichaelHardy has made the point, here is a more detailed argument as to why the MLE of the maximum (and hence, that of the mean θ/2, by invariance) is not unbiased, although it is in a different model (see the edit below).

We estimate the upper bound of the uniform distribution U[0,θ]. Here, y(n) is the MLE, for a random sample y. We show that y(n) is not unbiased. Its cdf is

Fy(n)(x)=Pr{Y1x,,Ynx}=Pr{Y1x}n={0forx<0(xθ)nfor0xθ1forx>θ
Thus, its density is
fy(n)(x)={nθ(xθ)n1for0xθ0else
Hence,
E[Y(n)]=0θxnθ(xθ)n1dx=0θn(xθ)ndx=nn+1θ

EDIT: It is indeed the case that (see the discussion in the comments) the MLE is unbiased for the mean in the case in which both the lower bound a and upper bound b are unknown. Then, the minimum Y(1) is the MLE for a, with (details omitted) expected value

E(Y(1))=na+bn+1
while
E(Y(n))=nb+an+1
so that the MLE for (a+b)/2 is
Y(1)+Y(n)2
with expected value
E(Y(1)+Y(n)2)=na+b+nb+a2(n+1)=a+b2

EDIT 2: To elaborate on Henry's point, here is a little simulation for the MSE of the estimators of the mean, showing that while the MLE if we do not know the lower bound is zero is unbiased, the MSEs for the two variants are identical, suggesting that the estimator which incorporates knowledge of the lower bound reduces variability.

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968

Because Wikipedia is proposing a different model to begin with. That's where my confusion lies.
Cagdas Ozgenc

Yes, but once we adjust to the special case discussed here, namely a=0, we are back at square 1. In that case, we do not need the sample minimum for estimation anymore, as we know that the lower bound is zero, so that the MLE of the midpoint (=median=mean) simply becomes (max+0)/2 again.
Christoph Hanck

2
I have not worked out the details, but the MLE in that model could be unbiased if the minimum overestimates the lower bound by the same amount as the maximum underestimates the maximum, so that the midpoint is being estimated without bias.
Christoph Hanck

4
@CagdasOzgenc: unbiasedness is not the only or even the most important measure of better. By knowing one end of the support precisely, you may lose the balance between errors in estimating the mean, but you end up with (for example) a better estimate of the range
Henry

6
Maximum likelihood estimators are not always "best" across all criteria for small sample sizes. So what? They don't pretend to be, either. If you want to use a different estimator for your problem that has better properties according to some criterion for sample sizes that are in the neighborhood of your actual sample size, you're free to do so. I do so, and so do other people. No one is claiming that using MLE is justified in all situations just because it's MLE.
jbowman

5

Completing here the omission in my answer over at math.se referenced by the OP,

assume that we have an i.i.d. sample of size n of random variables following the Half Normal distribution. The density and moments of this distribution are

fH(x)=2/π1v1/2exp{x22v}E(X)=2/πv1/2μ,Var(X)=(12π)v

The log-likelihood of the sample is

L(vx)=nln2/πn2lnv12vi=1nxi2

The first derivative with respect to v is

vL(vx)=n2v+12v2i=1nxi2,v^MLE=1ni=1nxi2

so it is a method of moments estimator. It is unbiased since,

E(v^MLE)=E(X2)=Var(X)+[E(X)])2=(12π)v+2πv=v

But, the resulting estimator for the mean is downward biased due to Jensen's inequality

μ^MLE=2/πv^MLEE(μ^MLE)=2/πE(v^MLE)<2/π[E(v^MLE)]=2/πv=μ

4

The famous Neyman Scott problem has an inconsistent MLE in that it never even converges to the right thing. Motivates the use of conditional likelihood.

Take (Xi,Yi)N(μi,σ2). The MLE of μi is (Xi+Yi)/2 and of σ2 is σ^2=i=1n1nsi2 with si2=(Xiμ^i)2/2+(Yiμ^i)2/2=(XiYi)2/4 which has expected value σ2/4 and so biased by a factor of 2.


2
While this example holds true, this actually defies one of the basic regularity conditions for asymptotic results of MLE's: that k/n0, where k is the number of parameters estimated and n is the sample size.
Cliff AB

1
@CliffAB the assumption violation is that the parametric dimension is not fixed. The dimension of Θ goes to as n. I think that's what you're saying, but don't know what k means. The practical illustration of this example of course is that these results would be biased even in small samples and you have to use conditional likelihood, like a mixed effects model, to estimate σ in this case.
AdamO

3

There is an infinite range of examples for this phenomenon since

  1. the maximum likelihood estimator of a bijective transform Ψ(θ) of a parameter θ is the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE);
  2. the expectation of the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE), E[Ψ(θ^MLE)] is not the bijective transform of the expectation of the maximum likelihood estimator, Ψ(E[θ^MLE]);
  3. most transforms Ψ(θ) are expectations of some transform of the data, h(X), at least for exponential families, provided an inverse Laplace transform can be applied to them.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.