Нехай y1,…,yn - спостережувані дані, які, як вважається, є реалізацією послідовності iid випадкових величин Y1,…,Yn із загальною функцією густини ймовірностей pe визначеною відносно сигма-скінченного виміру ν . Щільність pe називається щільністю генерування даних (DGP).
У моделі ймовірностей дослідника
M≡{p(y;θ):θ∈Θ} - це сукупність функцій щільності ймовірностей, які індексуються вектором параметрів
θ . Припустимо, що кожна щільність у M є визначеною щодо загальної сигма-кінцевої міри ν (наприклад, кожна щільність може бути функцією маси ймовірностей з тим самим простором S вибірки ).
Важливо зберегти щільність pe яка фактично генерувала дані, концептуально відмінна від моделі ймовірності даних. У класичних статистичних обробках ретельне відокремлення цих понять або ігнорується, не робиться, або вважається з самого початку, що модель ймовірності правильно вказана.
Правильно задана модель M щодо pe визначається як модель, де pe∈M ν - майже всюди. Якщо
M неправильно визначено щодо pe це відповідає випадку, коли модель вірогідності не вказана правильно.
Якщо модель ймовірності вказана правильно, то в просторі параметрів Θ існує θ∗ така що
p e ( y ) = p ( y ; θ ∗ )Θpe(y)=p(y;θ∗) ν - майже всюди. Такий вектор параметрів називається "справжнім вектором параметрів". Якщо модель ймовірності неправильно визначена, то справжній вектор параметрів не існує.
В рамках моделі невірної специфікації Уайта мета полягає в тому, щоб знайти оцінку параметра & thetas п , що зводить до мінімуму
л п ( & thetas ) ≡ ( 1 / п ) Е п я = 1 лог р ( у я , θ ) в протягом деякого компактного простору параметрів & thetas . Передбачається , що унікальна сувора глобальна мінімізант, θ * , від очікуваного значення л п на & thetas розташований у внутрішній частині & thetas ;θ^nℓ^n(θ)≡(1/n)∑ni=1logp(yi;θ)Θθ∗ℓ^nΘΘ. In the lucky case where the probability model is correctly specified, θ∗ may be interpreted as the "true parameter value".
In the special case where the probability model is correctly
specified, then θ^n is the familiar maximum likelihood estimate.
If we don't know have absolute knowledge that the probability model
is correctly specified, then θ^n is called a quasi-maximum
likelihood estimate and the goal is to estimate θ∗.
If we get lucky and the probability model is
correctly specified, then the quasi-maximum likelihood estimate reduces as
a special case to the familiar maximum likelihood estimate and
θ∗ becomes the true parameter value.
Consistency within White's (1982) framework corresponds to convergence
to θ∗ without requiring that θ∗ is necessarily the true
parameter vector. Within White's framework, we would never estimate
the probability of the event that the sets produced by δ include the TRUE distribution P*. Instead, we would always estimate the probability distribution P** which is the probability of the event that the sets
produced by δ include the distribution specified by the density
p(y;θ∗).
Finally, a few comments about model misspecification. It is easy to find
examples where a misspecified model is extremely useful and very predictive.
For example, consider a nonlinear (or even a linear) regression model
with a Gaussian residual error term whose variance is extremely small
yet the actual residual error in the environment is not Gaussian.
It is also easy to find examples where a correctly specified model
is not useful and not predictive. For example, consider a random walk
model for predicting stock prices which predicts tomorrow's closing
price is a weighted sum of today's closing priced and some Gaussian
noise with an extremely large variance.
The purpose of the model misspecification framework is not to ensure model
validity but rather to ensure reliability. That is, ensure that the sampling error associated with your parameter estimates, confidence intervals, hypothesis tests, and so on are correctly estimated despite the presence of either a small or large amount of model misspecification. The quasi-maximum likelihood
estimates are asymptotically normal centered at θ∗ with a covariance matrix estimator which depends upon both the first and second derivatives of the negative log-likelihood function. In the special case where you get lucky and the model is correct then all of the formulas reduce to the familiar classical statistical framework where the goal is to estimate the "true" parameter values.