Оцінка


14

У мене є теоретична економічна модель, яка полягає в наступному,

y=a+b1x1+b2x2+b3x3+u

Так теорія говорить, що для оцінки y є x1 , x2 і x3 коефіцієнти .y

Тепер у мене є реальні дані, і мені потрібно оцінити b1 , b2 , b3 . Проблема полягає в тому, що реальний набір даних містить лише дані для x1 та x2 ; даних для x3 . Тож модель, до якої я можу відповідати, - це:

y=a+b1x1+b2x2+u
  • Чи правильно оцінювати цю модель?
  • Чи втрачаю я щось, оцінюючи це?
  • Якщо я оцінюю , b 2 , то звідки b 3b1b2йде x 3 додаток?b3x3
  • Чи враховується це помилковим терміном ?u

І ми хотіли б припустити, що не співвідноситься з x 1 і x 2x3x1x2 .


Чи можете ви надати детальну інформацію про свій набір даних, я маю на увазі вашу залежну змінну та незалежні змінні x 1 та x 2 ? yx1x2
Вара

Розгляньте це як гіпотетичний приклад без конкретних наборів даних ...
renathy

Відповіді:


20

Питання, про яке потрібно хвилювати, називається ендогенність . Більш конкретно, це залежить від того, чи корелює у сукупності з х 1 або х 2 . Якщо це так, то пов'язані b j s будуть зміщені. Це тому, що методи регресії OLS змушують залишки, u i , бути некорельованими з вашими коваріатами, x j s. Однак ваші залишки складаються з деякої невідмінної випадковості, ε i , і неспостережної (але відповідної) змінної, х 3, корельованої зx3x1x2bjuixjεix3 , що за умови є і / або х 2 . З іншого боку, якщоі x 1, і x 2 не співвідносяться з x 3 у сукупності, то їх b s не буде упереджено цим (звичайно, вони можуть бути зміщені чимось іншим). Один із способів економістів намагаються вирішити це питання - за допомогоюінструментальних змінних. x1x2 x1x2x3b

Для більшої ясності я написав швидке моделювання в R, яке демонструє, що розподіл вибірки є неупередженим / зосередженим на справжньому значенні β 2 , коли воно не співвідноситься з x 3 . Однак у другому циклі зауважте, що x 3 некорельовано з x 1 , але не x 2 . Не випадково b 1 є неупередженим, але b 2 є упередженим. b2β2x3x3x1x2b1b2

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64

Отже, чи можете ви пояснити трохи більше - що трапляється, якщо припустити, що x3 не підтверджено з $ x_1 та x2? Тоді що станеться, якщо я оціню y = a + b1x1 + b2x2 + u?
renathy

1
буде вбудовано в залишки будь-яким способом, алеякщовоно буде некорельованим у сукупності, то інші ваші b s не будуть упереджені відсутністю x 3 , але якщо це не буде некорельовано, вони будуть. b3x3bx3
gung - Відновіть Моніку

x3x1 or x2, you are OK.
gung - Reinstate Monica


3

r2=ax2+by2+cz2+ϵx2, y2, z2, and you have measurements of r2 then you can determine your coefficients "a", "b", and "c". (You could call it ellipsoid, but to call it a ball is simpler.)

x2y2r2ax2+by2+ϵ.

z components utterly wreck the estimates of the two axes. It could be a ball that looks like a nearly crushed m&m where the coin-axes are "x" and "y", and there is zero projection. You can't know which it is without the "z" information.

That last paragraph was talking about a "pure information" case and didn't account for the noise. Real world measurements have the signal with noise. The noise along the perimeter that is aligned to the axes is going to have a much stronger impact on your fit. Even though you have the same number of samples, you are going to have more uncertainty in your parameter estimates. If it is a different equation than this simple linear axis-oriented case, then things can go "pear shaped". Your current equations are plane-shaped, so instead of having a bound (the surface of the ball), the z-data might just go all over the map - projection could be a serious problem.

Is it okay to model? That is a judgment call. An expert who understands the particulars of the problem might answer that. I don't know if someone can give a good answer if they are far from the problem.

You do lose several good things, including certainty in parameter estimates, and the nature of the model being transformed.

The estimate for b3 disappears into epsilon and into the other parameter estimates. It is subsumed by the whole equation, depending on the underlying system.


1
Я не можу наслідувати тут ваш аргумент, і я не впевнений, чи правильно він. Наприклад, площа поверхні кулі - це4πr2. Крім того, я не впевнений, як це стосується питання. Ключовим питанням є кореляція пропущеної змінної w чи змінних, що є в моделі. Я не впевнений, як те, що ви говорите, вирішує це питання. (Для наочності я демонструю це за допомогою простого моделювання R.)
gung - Reinstate Monica

Gung. I gave a best-case answer sphere -> circle and showed that it changed the model in unexpected ways. I liked the technical sophistication of your answer, but am not convinced that the asker is able to use either of our answers. the f(x,y,z) is the equation for the surface of an ellipsoid in 3 dimensions, a sphere is one case of it. I am assuming that the "true model" is the surface of the sphere, but noise corrupted measurements are on the surface. Throwing out one dimension gives data that, at best, makes a filled circle instead of the surface of a sphere.
EngrStudent - Reinstate Monica

I am unable to follow your argument because I don't see anything that corresponds to a "filled in square."
whuber

0

The other answers, while not wrong, over complicate the issue a bit.

If x3 is truly uncorrelated with x1 and x2 (and the true relationship is as specified) then you can estimate your second equation without an issue. As you suggest, β3x3 will be absorbed by the (new) error term. The OLS estimates will be unbiased, as long as all the other OLS assumptions hold.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.