Чи потрібні MLE дані про iid? Або просто незалежні параметри?


16

Оцінка параметрів з використанням максимальної оцінки ймовірності (MLE) включає оцінку функції ймовірності, яка відображає ймовірність виникнення вибірки (X) до значень (x) на просторі параметрів (θ) з заданим сімейством розподілу (P (X = x | θ) ) над можливими значеннями θ (зверніть увагу: чи я прав на це?) Усі приклади, які я бачив, передбачають обчислення P (X = x | θ), беручи добуток F (X), де F - розподіл з локальними значення для θ і X - зразок (вектор).

Оскільки ми просто множимо дані, чи випливає це, що дані будуть незалежними? Наприклад, чи не могли ми використовувати MLE для встановлення даних часових рядів? Або параметри просто повинні бути незалежними?

Відповіді:


14

Функція ймовірності визначається як вірогідність події E (набір даних x ) як функція параметрів моделі θ

L(θ;x)P(Event E;θ)=P(observing x;θ).

Тому немає припущення про незалежність спостережень. У класичному підході немає визначення незалежності параметрів, оскільки вони не є випадковими змінними; деякими пов'язаними поняттями можуть бути ідентифікація , ортогональність параметрів та незалежність оцінювачів максимальної вірогідності (які є випадковими змінними).

Деякі приклади,

(1). Дискретний випадок . є зразок (незалежний) дискретних спостережень з P ( спостереження  х J ; & thetas ; ) > 0 , тоx=(x1,...,xn)P(observing xj;θ)>0

L(θ;x)j=1nP(observing xj;θ).

Зокрема, якщо , з N відомим, маємо цеxjBinomial(N,θ)N

L(θ;x)j=1nθxj(1θ)Nxj.

(2). Безперервне наближення . Нехай бути зразком з безперервного випадкової величини X , з розподілом F і щільністю F , з вимірюванням помилки е , це, ви спостерігаєте безліч ( х J - ε , х j + ϵ ) . Потімx=(x1,...,xn)XFfϵ(xjϵ,xj+ϵ)

L(θ;x)j=1nP[observing (xjϵ,xj+ϵ);θ]=j=1n[F(xj+ϵ;θ)F(xjϵ;θ)]

Коли невеликий, це можна наблизити (використовуючи теорему середнього значення) наϵ

L(θ;x)j=1nf(xj;θ)

Для прикладу зі звичайним випадком погляньте на це .

(3). Залежна і маркова модель . Припустимо , що являє собою набір спостережень , можливо , залежних і нехай F бути спільної щільності х , тоx=(x1,...,xn)fx

L(θ;x)f(x;θ).

Якщо додатково власність Маркова задоволена, то

L(θ;x)f(x;θ)=f(x1;θ)j=1n1f(xj+1|xj;θ).

Погляньте і на це .


3
З того, як ви пишете функцію ймовірності як продукт, ви неявно припускаєте структуру залежності серед спостережень. Отже, для MLE потрібно два припущення (а) одне про розподіл кожного окремого результату та (b) одне про залежність між результатами.

10

(+1) Дуже хороше запитання.

Незначна річ, MLE розшифровується як максимум оцінку ймовірності (не кратну), а це означає, що ви просто максимізуєте ймовірність. Це не вказує на те, що ймовірність повинна бути вироблена шляхом IID відбору проб.

Якщо залежність вибірки може бути записана в статистичній моделі, ви просто записуєте ймовірність відповідно і максимізуєте її як завжди.

Єдиний випадок, який варто згадати, коли ви не приймаєте на себе залежність, - це багатоваріантний вибірки Гаусса (наприклад, в аналізі часових рядів). Залежність між двома гауссовими змінними можна змоделювати за допомогою їхнього коваріаційного терміна, який ви, ймовірно, співпрацюєте.

2

12πσ21ρ2exp(z2σ2(1ρ2)),

z

z=(x1μ)22ρ(x1μ)(x2μ)+(x2μ)2.

This is not the product of the individual likelihoods. Still, you would maximize this with parameters (μ,σ,ρ) to get their MLE.


2
These are good answers and examples. The only thing I would add to see this in simple terms is that likelihood estimation only requires that a model for the generation of the data be specified in terms of some unknown parameters be described in functional form.
Michael R. Chernick

(+1) Absolutely true! Do you have an example of model that cannot be specified in those terms?
gui11aume

@gu11aume I think you are referring to my remark. I would say that I was not giving a direct answer to the question. The answwer to the question is yes because there are examples that can be shown where the likelihood function can be expressed when the data are genersted by dependent random variables.
Michael R. Chernick

2
Examples where this cannot be done would be where the data are given without any description of the data generating mechanism or the model is not presented in a parametric form such as when you are given two iid data sets and are asked to test whether they come from the same distribution where you only specify that the distributions are absolutely continuous.
Michael R. Chernick

4

Of course, Gaussian ARMA models possess a likelihood, as their covariance function can be derived explicitly. This is basically an extension of gui11ame's answer to more than 2 observations. Minimal googling produces papers like this one where the likelihood is given in the general form.

Another, to an extent, more intriguing, class of examples is given by multilevel random effect models. If you have data of the form

yij=xijβ+ui+ϵij,
where indices j are nested in i (think of students j in classrooms i, say, for a classic application of multilevel models), then, assuming ϵijui, the likelihood is
lnLilnjf(yij|β,ui)dF(ui)
and is a sum over the likelihood contributions defined at the level of clusters, not individual observations. (Of course, in the Gaussian case, you can push the integrals around to produce an analytic ANOVA-like solution. However, if you have say a logit model for your response yij, then there is no way out of numerical integration.)

2
Stask and @gui11aume, these three answers are nice but I think they miss a point: what about the consistency of the MLE for dependent data ?
Stéphane Laurent
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.