Якщо я повторюю кожне спостереження вибірки в лінійній регресійній моделі і повторюю регресію, як це вплине на результат?

15

Скажімо, у мене є N спостережень, можливо, декілька факторів, і я повторюю кожне спостереження двічі (або M разів), як би регресія на цьому новому наборі розміру NM порівнялася з регресією лише за оригінальними спостереженнями?

regression linear-model multiple-regression

— Палац Чан
джерело

13

Концептуально ви не додаєте "нової" інформації, але "точніше" знаєте цю інформацію.

Тому це призведе до однакових коефіцієнтів регресії з меншими стандартними помилками.

Наприклад, у Stata функція розширення x дублює кожне спостереження х разів.

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

Як бачите, раніше розгорнуті коефіцієнти (довжина) стають статистично значущими в розгорнутій моделі, представляючи точність, з якою ви «знаєте» те, що знаєте.

— pmgjones
джерело

Так, стандартні помилки дійсно зменшуються. Деякі рекомендують зважену лінійну регресію для цього .. Чи існує метод, який ви використовуєте для виправлення цього?

— BBDynSys

3

ш^{*} = {аргмін}_{ш} | | Х ш - у | |^{2}

$w^* = \mbox{argmin}_w ||Xw - y||^2$

X

$X$

y

$y$

M

$M$

M

$M$

— Іннуо
джерело

Погоджено, але я думаю, що статистика та стандартні помилки повинні змінитися, враховуючи зміну з N на NM?

— Палац Чан

M * N - P

$M*N - P$

N

$N$

P

$P$

M

$M$