Чи може емпіричний гессіан М-оцінювача бути невизначеним?


15

Джеффрі Уолдрідж у своєму Економетричному аналізі даних перерізів та панелей (стор. 357) говорить, що емпіричний Гессіан "не гарантується певним позитивним чи навіть позитивним напівфінітом для конкретного зразка, з яким ми працюємо".

Мені це здається неправильним, оскільки (числові проблеми, крім) Гессіан повинен бути позитивним напівдефінітом у результаті визначення М-оцінника як значення параметра, що мінімізує цільову функцію для даної вибірки та добре відомий факт, що при (локальному) мінімумі гессієн є позитивним напівфінітом.

Чи правильно мій аргумент?

[EDIT: Заява видалено у другому виданні. книги. Дивіться коментар.]

Передумови Припустимо , що θ N є оцінка виходить шляхом мінімізації 1θ^N

1Ni=1Nq(wi,θ),
деwiпозначаєi-ве спостереження.

Позначимо гессіану через H , H ( q , θ ) i j = 2 qqH

H(q,θ)ij=2qθiθj

Асимптотична ковариация & thetas п включає Е [ Н ( д , & thetas ; 0 ) ] , де θ 0 є істинним значенням параметра. Один із способів оцінити це - використання емпіричного Гессіанаθ^nE[H(q,θ0)]θ0

H^=1Ni=1NH(wi,θ^n)

Це визначеність Н , яка знаходиться під питанням.H^


1
@Jyotirmoy, що робити, якщо мінімум трапиться на межі простору вашого параметра?
кардинал

@cardinal. Ви маєте рацію, мій аргумент не спрацює в такому випадку. Але Вулдрідж розглядає випадок, коли мінімум в інтер’єрі. Чи не помиляється він у такому випадку?
Jyotirmoy Bhattacharya

@Jyotirmoy, це, безумовно, може бути лише позитивним напівфінітом. Подумайте про лінійні функції або функції, де множина мінімальних точок утворює опуклий багатогранник. Для більш простого прикладу розглянемо будь-який многочлен при x = 0 . f(x)=x2nx=0
кардинал

1
@cardinal. Правда. Мене турбує фраза "навіть позитивний напівфініт" у цитованій заяві.
Jyotirmoy Bhattacharya

@Jyotirmoy, чи є в книзі конкретна форма М-оцінки, яку ви могли б надати? Також надайте розглянутий простір параметрів. Може, тоді ми зможемо з’ясувати, що мав на увазі автор. Загалом, я думаю, ми вже встановили, що твердження автора є правильним. Розміщення подальших обмежень у формі або просторі параметрів, що розглядається, може змінити це. q
кардинал

Відповіді:


16

Я думаю, ти маєш рацію. Давайте перекажемо ваш аргумент до його суті:

  1. мінімізує функціюQвизначається якQ(thetas)=1θ^NQQ(θ)=1Ni=1Nq(wi,θ).

  2. Нехай - гессіан Q , звідси H ( θ ) = 2 QHQ за визначенням, а це, в свою чергу, за лінійністю диференціації дорівнює1H(θ)=2Qθiθj.1Ni=1NH(wi,θn)

  3. Припускаючи , що & thetas ; N лежить у внутрішній частині області Q , то Н ( θ N ) повинен бути позитивним полуопределенним.θ^NQH(θ^N)

Це просто твердження про функції : як вона визначається лише відволікання, за винятком тих випадків, коли передбачається другого порядку дифференцируемость ц щодо другого аргументу ( & thetas ) забезпечує другий порядок дифференцируемости Q .QqθQ


Пошук M-оцінок може бути складним. Розглянемо ці дані, надані @mpiktas:

{1.168042, 0.3998378}, {1.807516, 0.5939584}, {1.384942, 3.6700205}, {1.327734, -3.3390724}, {1.602101, 4.1317608}, {1.604394, -1.9045958}, {1.124633, -3.0865249}, {1.294601, -1.8331763},{1.577610, 1.0865977}, { 1.630979, 0.7869717}

Процедура R для знаходження М-оцінки з дала рішення ( c 1 , c 2 ) = ( - 114.91316 , - 32.54386 ) . Значення цільової функції (середнє значення q ) в цій точці дорівнює 62,3542. Ось сюжет пристосування:q((x,y),θ)=(yc1xc2)4(c1,c2)(114.91316,32.54386)q

Підходить 1

Ось сюжет цільової функції (log) у сусідньому районі:

Мета 1

Тут щось риб'яче: параметри пристосування надзвичайно далекі від параметрів, що використовуються для імітації даних (поблизу ), і нам, здається, не мінімум: ми знаходимось у надзвичайно мілкою долині, що нахилена. у бік більших значень обох параметрів:(0.3,0.2)

Завдання 1, тривимірний вигляд

Негативна детермінанта Гессі в цей момент підтверджує, що це не локальний мінімум! Тим не менше, дивлячись на мітки осі z, можна побачити, що ця функція є рівною до п'ятицифрової точності у всій області, оскільки вона дорівнює постійній 4,1329 (логарифм 62,354). Це, ймовірно, змусило мінімізатор функцій R (за його типовими відхиленнями) зробити висновок, що він був майже мінімальним.

Насправді рішення далеко не з цього пункту. Щоб впевнитись у знаходженні цього, я застосував обчислювально дорогий, але високоефективний метод " Основна вісь " в Mathematica , використовуючи 50-значну точність (основа 10), щоб уникнути можливих числових проблем. Він знаходить мінімум поблизу де цільова функція має значення 58,292655: приблизно на 6% менше, ніж "мінімум", знайдений R. Цей мінімум зустрічається у надзвичайно плоскому вигляд , але я можу зробити так, щоб він виглядав (лише ледь) як справжній мінімум, з еліптичними контурами, перебільшуючи c 2(c1,c2)=(0.02506,7.55973)c2 напрямок у сюжеті:

Мета 2

Контури коливаються від 58,29266 посередині аж до 58,29284 в кутах (!). Ось тривимірний вигляд (знову ж таки мета журналу):

Завдання 2, тривимірний вигляд

Тут гессієн є позитивно визначеним: його власні значення 55062,02 та 0,430978. Таким чином, ця точка є локальним мінімумом (і, швидше за все, глобальним мінімумом). Ось відповідність, якій вона відповідає:

Підходить 2

Я думаю, що це краще, ніж інший. Значення параметрів, безумовно, більш реалістичні, і зрозуміло, що ми не зможемо зробити це набагато краще з цим сімейством кривих.

З цього прикладу можна зробити корисні уроки:

  1. Числова оптимізація може бути складною, особливо з функціями нелінійної підгонки та неквадратичної втрати. Тому:
  2. Перевіряйте результати якомога більше способів, включаючи:
  3. Графікуйте цільову функцію, коли зможете.
  4. Коли чисельні результати порушують математичні теореми, будьте вкрай підозрілими.
  5. Коли статистичні результати викликають подив - такі, як дивні значення параметрів, повернені кодом R - будуть надзвичайно підозрілими.

+1, приємний аналіз. Я думаю, що саме тому Вулдрідж включив це зауваження. Я все ще думаю, що можна придумати якийсь приклад, коли гессіан буде невизначеним. Наприклад, штучно обмежуючи простір параметрів. У цьому прикладі простір параметрів є цілою площиною, тому локальний мінімум дасть напівпозитивний гессіан. Я думаю, що прийшов час написати приємний лист Волдріджу, щоб взяти його питання :)
mpiktas

@mpiktas Так, я впевнений, що існують проблеми, коли внутрішній глобальний мінімум має невизначений гессіан, але там, де всі параметри можна визначити. Але для гессіана при досить гладкому внутрішньому глобальному мінімумі це просто неможливо. Такі речі були доведені знову і знову, як, наприклад, в " Топології Мільнора" з точки зору диференціації . Я підозрюю, що Вулдрідж, можливо, був введений в оману численними "рішеннями". (Друкарські помилки на сторінці, що цитується, припускають, що це було написано поспіхом, до речі.)
whuber

навіть на кордоні гессіан буде позитивним? Я перевірю книгу, бачу, що мені дуже не вистачає значних знань у цій галузі. Класичні теореми дуже прості, тому я припустив, що не повинно бути чогось іншого дуже складного. Це, можливо, одна з причин, чому мені так складно було відповідати на запитання.
mpiktas

@mpiktas На кордоні гессі не обов'язково навіть визначатись . Ідея така: якщо матриця якобіана / гессія / друга похідна визначена в критичній точці, то в сусідстві функція діє як квадратична форма, визначена цією матрицею. Якщо матриця має позитивні та негативні власні значення, функція повинна зростати в одних напрямках і зменшуватися в інших: вона не може бути локальним екстремумом. Це те, що стосується @Jyotirmoy щодо пропозиції, яка, здається, суперечить цій основній властивості.
whuber

Дякую і вам, і @mpiktas за дуже приємний аналіз. Я схильний би погодитися з вами, що Вулдрідж плутає числові труднощі з теоретичними властивостями оцінювача. Подивимось, чи є ще якісь відповіді.
Jyotirmoy Bhattacharya

7

Цінову пропозицію можна знайти тут . θ^N

minθΘN1i=1Nq(wi,θ)

θ^NΘH^

N1i=1Nq(wi,θ)θ0

minθΘEq(w,θ).

N1i=1Nq(wi,θ)Θ

Далі у своїй книзі Вулдрідж наводить приклади оцінок Гессіана, які гарантовано є чисельно позитивними. На практиці непозитивна визначеність Гессіана повинна вказувати, що рішення знаходиться або на граничній точці, або в алгоритмі не вдалося знайти рішення. Що зазвичай є додатковим свідченням того, що встановлена ​​модель може бути невідповідною для даних даних.

Ось чисельний приклад. Я генерую нелінійну проблему з найменшими квадратами:

yi=c1xic2+εi

I take X uniformly distributed in interval [1,2] and ε normal with zero mean and variance σ2. I generated a sample of size 10, in R 2.11.1 using set.seed(3). Here is the link to the values of xi and yi.

I chose the objective function square of usual non-linear least squares objective function:

q(w,θ)=(yc1xic2)4

Here is the code in R for optimising function, its gradient and hessian.

##First set-up the epxressions for optimising function, its gradient and hessian.
##I use symbolic derivation of R to guard against human error    
mt <- expression((y-c1*x^c2)^4)

gradmt <- c(D(mt,"c1"),D(mt,"c2"))

hessmt <- lapply(gradmt,function(l)c(D(l,"c1"),D(l,"c2")))

##Evaluate the expressions on data to get the empirical values. 
##Note there was a bug in previous version of the answer res should not be squared.
optf <- function(p) {
    res <- eval(mt,list(y=y,x=x,c1=p[1],c2=p[2]))
    mean(res)
}

gf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res <- sapply(gradmt,function(l)eval(l,evl))
    apply(res,2,mean)
}

hesf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res1 <- lapply(hessmt,function(l)sapply(l,function(ll)eval(ll,evl)))
    res <- sapply(res1,function(l)apply(l,2,mean))
    res
}

First test that gradient and hessian works as advertised.

set.seed(3)
x <- runif(10,1,2)
y <- 0.3*x^0.2

> optf(c(0.3,0.2))
[1] 0
> gf(c(0.3,0.2))
[1] 0 0
> hesf(c(0.3,0.2))
     [,1] [,2]
[1,]    0    0
[2,]    0    0
> eigen(hesf(c(0.3,0.2)))$values
[1] 0 0

The hessian is zero, so it is positive semi-definite. Now for the values of x and y given in the link we get

> df <- read.csv("badhessian.csv")
> df
          x          y
1  1.168042  0.3998378
2  1.807516  0.5939584
3  1.384942  3.6700205
4  1.327734 -3.3390724
5  1.602101  4.1317608
6  1.604394 -1.9045958
7  1.124633 -3.0865249
8  1.294601 -1.8331763
9  1.577610  1.0865977
10 1.630979  0.7869717
> x <- df$x
> y <- df$y
> opt <- optim(c(1,1),optf,gr=gf,method="BFGS")  
> opt$par
[1] -114.91316  -32.54386
> gf(opt$par)
[1] -0.0005795979 -0.0002399711
> hesf(opt$par)
              [,1]         [,2]
[1,]  0.0002514806 -0.003670634
[2,] -0.0036706345  0.050998404
> eigen(hesf(opt$par))$values
[1]  5.126253e-02 -1.264959e-05

Gradient is zero, but the hessian is non positive.

Note: This is my third attempt to give an answer. I hope I finally managed to give precise mathematical statements, which eluded me in the previous versions.


@mpiktas, That's some interesting notation there (I know it's not yours). A w on the left-hand side and y and x on the right-hand side. I'm guessing w=(x,y) or something like that. Also, I'm assuming the squaring should be happening to ym(x,θ) and not just to m(x,θ). No?
cardinal

@mpiktas, I'm not quite sure how to interpret your first sentence due to the wording. I can see two ways, one that I'd call correct and the other I wouldn't. Also, strictly speaking, I don't agree with the second sentence in your first paragraph. As I've shown above, it is possible to be at a local minimum in the interior of the parameter space without the Hessian being positive definite.
cardinal

@cardinal, yes you are right. Wooldridge uses w for consistency reasons, y and x is reserved for response and predictors throughout the book. In this example w=(x,y).
mpiktas

@cardinal, I fixed my wording. Now it should be ok. Thanks for pointing out the problem.
mpiktas

@mptikas. Neither Wooldridge nor I are claiming that the Hessian has to be positive definite everywhere. My claim is that for an interior maximum the empirical Hessian has to be positive semidefinite as a necessary condition of a smooth function reaching its maximum. Wooldridge seems to be saying something different.
Jyotirmoy Bhattacharya

3

The hessian is indefinite at a saddle point. It’s possible that this may be the only stationary point in the interior of the parameter space.

Update: Let me elaborate. First, let’s assume that the empirical Hessian exists everywhere.

If θ^n is a local (or even global) minimum of iq(wi,) and in the interior of the parameter space (assumed to be an open set) then necessarily the Hessian (1/N)iH(wi,θ^n) is positive semidefinite. If not, then θ^n is not a local minimum. This follows from second order optimality conditions — locally iq(wi,) must not decrease in any directions away from θ^n.

One source of the confusion might the "working" definition of an M-estimator. Although in principle an M-estimator should be defined as argminθiq(wi,θ), it might also be defined as a solution to the equation

0=iq˙(wi,θ),
where q˙ is the gradient of q(w,θ) with respect to θ. This is sometimes called the Ψ-type. In the latter case a solution of that equation need not be a local minimum. It can be a saddle point and in this case the Hessian would be indefinite.

Practically speaking, even a positive definite Hessian that is nearly singular or ill-conditioned would suggest that the estimator is poor and you have more to worry about than estimating its variance.


could you adapt your answer so that it matches the notation of the question? To what is x2y2 referring? Where does this get inserted into the equations given in the question?
probabilityislogic

+1 Good points in the update, especially the last paragraph. When the Hessian is available--as is implicitly assumed throughout this discussion--one would automatically use its positive-definiteness as one of the criteria for testing any critical point and therefore this issue simply could not arise. This leads me to believe the Wooldridge quotation must concern the Hessian at a putative global minimum, not at a mere critical point.
whuber

1

There's been a lot of beating around the bush in this thread regarding whether the Hessian has to be positive (semi)definite at a local minimum. So I will make a clear statement on that.

Presuming the objective function and all constraint functions are twice continuously differentiable, then at any local minimum, the Hessian of the Lagrangian projected into the null space of the Jacobian of active constraints must be positive semidefinite. I.e., if Z is a basis for the null space of the Jacobian of active constraints, then ZT(Hessian of Lagrangian)Z must be positive semidefinite. This must be positive definite for a strict local minimum.

So the Hessian of the objective function in a constrained problem having active constraint(s) need not be positive semidefinite if there are active constraints.

Notes:

1) Active constraints consist of all equality constraints, plus inequality constraints which are satisfied with equality.

2) See the definition of the Lagrangian at https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .

3) If all constraints are linear, then the Hessian of the Lagrangian = Hessian of the objective function because the 2nd derivatives of linear functions are zero. But you still need to do the projection jazz if any of these constraints are active. Note that lower or upper bound constraints are particular cases of linear inequality constraints. If the only constraints which are active are bound constraints, the projection of the Hessian into the null space of the Jacobian of active constraints amounts to eliminating the rows and columns of the Hessian corresponding to those components on their bounds.

4) Because Lagrange multipliers of inactive constraints are zero, if there are no active constraints, the Hessian of the Lagrangian = the Hessian of the objective function, and the Identity matrix is a basis for the null space of the Jacobian of active constraints, which results in the simplification of the criterion being the familiar condition that the Hessian of the objective function be positive semidefinite at a local minimum (positive definite if a strict local minimum).


0

The positive answers above are true but they leave out the crucial identification assumption - if your model is not identified (or if it is only set identified) you might indeed, as Wooldridge correctly indicated, find yourself with a non-PSD empirical Hessian. Just run some non-toy psychometric / econometric model and see for yourself.


Because this does not seem mathematically possible, could you offer a simple, clear example to demonstrate how the Hessian of a continuously twice-differentiable objective function could possibly fail to be PSD at a global minimum?
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.