Чому оціночні коефіцієнти регресії rlm () відрізняються від lm () в R?


15

Я використовую rlm в пакеті R MASS для регресу багатовимірної лінійної моделі. Він добре працює для декількох зразків, але я отримую квазінульові коефіцієнти для конкретної моделі:

Call: rlm(formula = Y ~ X1 + X2 + X3 + X4, data = mymodel, maxit = 50, na.action = na.omit)
Residuals:
       Min         1Q     Median         3Q        Max 
-7.981e+01 -6.022e-03 -1.696e-04  8.458e-03  7.706e+01 

Coefficients:
             Value    Std. Error t value 
(Intercept)    0.0002   0.0001     1.8418
X1             0.0004   0.0000    13.4478
X2            -0.0004   0.0000   -23.1100
X3            -0.0001   0.0002    -0.5511
X4             0.0006   0.0001     8.1489

Residual standard error: 0.01086 on 49052 degrees of freedom
  (83 observations deleted due to missingness)

Для порівняння, це коефіцієнти, обчислені lm ():

Call:
lm(formula = Y ~ X1 + X2 + X3 + X4, data = mymodel, na.action = na.omit)

Residuals:
    Min      1Q  Median      3Q     Max 
-76.784  -0.459   0.017   0.538  78.665 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -0.016633   0.011622  -1.431    0.152    
X1            0.046897   0.004172  11.240  < 2e-16 ***
X2           -0.054944   0.002184 -25.155  < 2e-16 ***
X3            0.022627   0.019496   1.161    0.246    
X4            0.051336   0.009952   5.159  2.5e-07 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 2.574 on 49052 degrees of freedom
  (83 observations deleted due to missingness)
Multiple R-squared: 0.0182, Adjusted R-squared: 0.01812 
F-statistic: 227.3 on 4 and 49052 DF,  p-value: < 2.2e-16 

Діаграма lm не показує особливо високого рівня, вимірюваного відстані Кука:

lm діагностика

EDIT

Для довідки та після підтвердження результатів на основі відповіді, наданої Макросом, команда R для встановлення параметра настройки k, в оцінці Хубера є ( k=100у цьому випадку):

rlm(y ~ x, psi = psi.huber, k = 100)

Залишкові стандартні помилки в поєднанні з іншою інформацією дозволяють виглядати так, ніби rlmвагова функція викидає майже всі спостереження. Ви впевнені, що це те саме Y у двох регресіях? (Просто перевіряємо ...) Спробуйте method="MM"під час свого rlmдзвінка, а потім спробуйте (якщо це не вдалося) psi=psi.huber(k=2.5)(2.5 - довільне, трохи більше, ніж за замовчуванням 1.345), яке поширює lmобласть-вагу функції ваги.
jbowman

@jbowman Y правильний. Додано метод ММ. Моя інтуїція - та сама, яку ви згадали. Ця модель залишків порівняно компактна порівняно з іншими, які я спробував. Схоже, методологія відкидає більшість спостережень.
Роберт Кубрик

1
@RobertKubrick ти розумієш, що означає встановлення k до 100 , правда?
user603

Виходячи з цього: Кілька R-квадратів: 0,0182, Регульований R-квадрат: 0,01812, ви повинні вивчити свою модель ще раз. Аутлієри, трансформація відповіді або предиктори. Або вам слід розглянути нелінійну модель. Прогноз X3 не є істотним. Те, що ви зробили, не є хорошою лінійною моделлю.
Марія Мілоевич

Відповіді:


15

rlm()Mlm()

M

i=1nρ(YiXiβσ)

βYiiXii

ρ(x)=x2
rlm()M

ρ(x)={12x2if |x|kk|x|12k2if |x|>k.

krlm()k=1.345

Редагувати: З наведеного вище сюжету QQ, схоже, у вас дуже довгий розподіл помилок. Ось така ситуація, для якої створений M-оцінювач Huber, і в цій ситуації може дати зовсім інші оцінки:

Коли помилки зазвичай розподіляються, оцінки будуть приблизно подібними, оскільки при нормальному розподілі більша частина функції Хубера потрапить під ситуацію , що еквівалентно найменшим квадратам. У ситуації, що склалася довгий, багато хто потрапляє у ситуацію , що є відходом від OLS, що пояснило б розбіжність. ρ|x|<k|x|>k


Я спробував декілька інших моделей (однакова кількість спостережень, однакові IV), і коефіцієнти досить схожі між rlm та lm. У цьому конкретному наборі даних повинно бути щось, що створює велику різницю в коефіцієнтах.
Роберт Кубрик

1
k

1
k=1.5,2,2.5,3,3.5,4psi.huberklmrlm
jbowman

1
Це для додаткової інформації, @jbowman - це корисні коментарі. Що стосується вашого останнього коментаря, ці великі зауваження точно не викидаються - їх вплив просто набирається (як здається, так і має бути), правда?
Макрос

1
σσ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.