Чому діагностика заснована на залишках?


12

У простій лінійній регресії часто хочеться перевірити, чи виконуються певні припущення, щоб можна було зробити висновок (наприклад, залишки зазвичай розподіляються).

Чи доцільно перевіряти припущення, перевіряючи, чи правильно розміщені встановлені значення?

Відповіді:


20

Чому діагностика заснована на залишках?

Тому що багато припущень стосуються умовного розподілу , а не його безумовного розподілу. Це рівнозначно припущенню про помилки, які ми оцінюємо за залишками.Y

У простій лінійній регресії часто хочеться перевірити, чи виконуються певні припущення, щоб можна було зробити висновок (наприклад, залишки зазвичай розподіляються).

Фактичне припущення про нормальність стосується не залишків, а терміна помилки. Найближчим із тих, що у вас є, є залишки, тому ми їх перевіряємо.

Чи доцільно перевірити перевірку припущень, перевіривши, чи нормально розміщені встановлені значення?

Ні. Розподіл пристосованих значень залежить від структури 's. Це зовсім не розповідає про припущення.x

Наприклад, я щойно провів регресію за імітованими даними, для яких усі припущення були правильно вказані. Наприклад, нормальність помилок була задоволена. Ось що відбувається, коли ми намагаємося перевірити нормальність встановлених значень:

діагностика нормальності на обладнаних

Вони явно ненормальні; насправді вони виглядають бімодально. Чому? Добре, тому що розподіл пристосованих значень залежить від структури 's. Помилки були нормальними, але встановлені значення можуть бути майже будь-якими.x

Інша річ, яку люди часто перевіряють (набагато частіше насправді) - це нормальність s ..., але безумовно на x ; знову ж таки, це залежить від шаблону x s, і тому не розповідає багато про фактичні припущення. Знову я створив деякі дані, де всі припущення містяться; ось що відбувається, коли ми намагаємося перевірити нормальність безумовних значень y :yxxy

діагностика нормальності на сировинних y-значеннях

y

Yyyx


Що таке припущення, як ми їх перевіряємо і коли нам потрібно їх робити?

  • х

  • Е(Y)хх

  • Вар(Y|х)ххх

  • Умовна незалежність / незалежність помилок. Конкретні форми залежності можуть бути перевірені (наприклад, послідовна кореляція). Якщо ви не можете передбачити форму залежності, це важко перевірити.

  • Y

(Насправді є деякі інші припущення, які я не згадував, наприклад помилки з добавкою, що помилки мають нульове значення тощо).

Якщо вам цікаво лише оцінити відповідність найменших ліній квадратів, а не сказати стандартні помилки, вам не потрібно робити більшість цих припущень. Наприклад, розподіл помилок впливає на умовиводи (тести та інтервали), і це може вплинути на ефективність оцінки, але лінія LS все ще найкраща лінійна неупереджена, наприклад; тому, якщо розподіл не є настільки ненормативним, що всі лінійні оцінювачі є поганими, це не обов'язково велика проблема, якщо припущення про термін помилки не виконуються.


Я додав кілька діаграм до своєї відповіді.
Glen_b -Встановіть Моніку

2
Це чудова відповідь. Якщо ви хочете більше, я охоплюю дещо подібну територію: Що робити, якщо залишки зазвичай розподіляються, але Y - ні?
gung - Відновіть Моніку

@gung Я б'ю себе за те, що спочатку не посилаюся на нього.
Glen_b -Встановити Моніку

1
@Glen: Дуже хороший диспозитив. У мене була така ж плутанина тривалий час завдяки не настільки гарному обробленню теми в підручниках та майже у великій кількості ресурсів в Інтернеті. З іншого боку, безумовний розподіл Y майже завжди досліджується для виведення моделі умовного розподілу, особливо в контексті часових рядів. Чи є теоретичні міркування за цим? Я спробував поставити це як питання, але, думаю, не міг правильно його сформулювати
Cagdas Ozgenc

@CagdasOzgenc Єдиною причиною, про яку я можу це зробити, є те, що це легко зробити, перш ніж мати модель. Відповідь, яку ви отримали на це пов'язане питання, виглядала як хороша відповідь, коли вона була розміщена.
Glen_b -Встановити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.