Що відбувається, коли я включаю змінну у квадрат у свою регресію?


20

Я починаю з моєї регресії OLS: де D - фіктивна змінна, оцінки стають різними від нуля з низьким р-значенням. Потім я заздалегідь підготую тест Рамзі RESET і виявляю, що у мене є деяка помилка рівняння, я таким чином включаю квадрат x: y = β 0 + β 1 x 1 + β 2 x 2 1 + β 3 D + ε

y=β0+β1x1+β2D+ε
y=β0+β1x1+β2x12+β3D+ε
  1. Що пояснює квадратний термін? (Нелінійне збільшення Y?)
  2. Виконуючи це, моя оцінка D більше не змінюється від нуля, з високим р-значенням. Як я інтерпретую квадратний термін у моєму рівнянні (загалом)?

Редагувати: поліпшення питання.



1
Ймовірна причина: і D, здається, пояснюють однакову мінливість у yx12Dy
стійкої риби

3
Одне, що може допомогти, - це зосереджувати перед створенням терміна у квадраті (див. Тут ). Щодо інтерпретації вашого квадратного терміна, я стверджую, що найкраще інтерпретувати β 1 x 1 + β 2 x 2 1 в цілому (див. Тут ). Інша справа, що вам можуть знадобитися взаємодію, що означає додавання β 4 х 1 D + β 5 х 2 - D . x β1x1+β2x12 β4x1D+β5x12D
gung - Відновити Моніку

Я не думаю, що це насправді дублікат цього питання; рішення інше (змінні центрування працюють тут, але не там, якщо я не помиляюся)
Пітер Флом - Відновити Моніку

@Peter, я трактую це питання як підмножину "Чому так, що коли я додаю змінну до моєї моделі, оцінка ефекту / значення для деяких інших змінних змін?", Яке розглядається в іншому запитанні. Серед відповідей на це питання - колінеарність (на яку натякає Гунг у своїй відповіді на це запитання) / зміст дублювання між предикторами (тобто між D і ( x 1 , x 2 1 ) , що, як я підозрюю, є винуватцем цього випадку) . Тут діє та сама логіка. Я не впевнений, що таке суперечка, але це добре, якщо ви та інші не погоджуєтесь. Ура. pD(x1,x12)
Макрос

Відповіді:


21

Ну, по-перше, фіктивна змінна інтерпретується як зміна перехоплення. Тобто ваш коефіцієнт дає вам різницю перехоплення, коли D = 1 , тобто коли D = 1 , перехоплення становить β 0 + β 3 . Ця інтерпретація не змінюється при додаванні квадрата х 1 .β3D=1D=1β0+β3x1

Тепер сенс додавання квадрата до ряду полягає в тому, що ви припускаєте, що відносини зникають у певний момент. Дивлячись на ваше друге рівняння

y=β0+β1x1+β2x12+β3D+ε

Беручи похідне wrt x1

δyδx1=β1+2β2x1

Solving this equation gives you the turning point of the relationship. As user1493368 explained, this is indeed reflecting an inverse U-shape if β1<0 and vice versa. Take the following example:

y^=1.3+0.42x10.32x12+0.14D

The derivative w.r.t. x1 is

δyδx1=0.4220.32x1

Solving for x1 gives you

δyδx1=0x10.66

That is the point at which the relationship has its turning point. You can take a look at Wolfram-Alpha's output for the above function, for some visualization of your problem.

Remember, when interpreting the ceteris paribus effect of a change in x1 on y, you have to look at the equation:

Δy=(β1+2β2x1)Δx

That is, you can not interpret β1 in isolation, once you added the squared regressor x12!

Regarding your insignificant D after including the squared x1, it points towards misspecification bias.


Hi. If you had several predictors should you use partial derivatives or total derivatives (diferentials)?
skan

1
A partial derivative is still the right way to go here. The interpretation of all coefficients is ceteris paribus, i.e., holding everything else constant. That's exactly what you are doing when you take a partial derivative.
altabq

See this UCLA IDRE page to complement @altabq's great answer.
Cyrille

19

A good example of including square of variable comes from labor economics. If you assume y as wage (or log of wage) and x as an age, then including x^2 means that you are testing the quadratic relationship between an age and wage earning. Wage increases with the age as people become more experienced but at the higher age, wage starts to increase at decreasing rate (people becomes older and they will not be so healthy to work as before) and at some point the wage doesn't grow (reaches the optimal wage level) and then starts to fall (they retire and their earnings starts to decrease). So, the relationship between wage and age is inverted U-shaped (life cycle effect). In general, for the example mentioned here, the coefficient on age is expected to be positive and than on age^2 to be negative.The point here is that there should be theoretical basis /empirical justification for including the square of the variable. The dummy variable, here, can be thought of as representing gender of the worker. You can also include interaction term of gender and age to examine the whether the gender differential varies by age.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.