Відповіді:
Чому діагностика заснована на залишках?
Тому що багато припущень стосуються умовного розподілу , а не його безумовного розподілу. Це рівнозначно припущенню про помилки, які ми оцінюємо за залишками.
У простій лінійній регресії часто хочеться перевірити, чи виконуються певні припущення, щоб можна було зробити висновок (наприклад, залишки зазвичай розподіляються).
Фактичне припущення про нормальність стосується не залишків, а терміна помилки. Найближчим із тих, що у вас є, є залишки, тому ми їх перевіряємо.
Чи доцільно перевірити перевірку припущень, перевіривши, чи нормально розміщені встановлені значення?
Ні. Розподіл пристосованих значень залежить від структури 's. Це зовсім не розповідає про припущення.
Наприклад, я щойно провів регресію за імітованими даними, для яких усі припущення були правильно вказані. Наприклад, нормальність помилок була задоволена. Ось що відбувається, коли ми намагаємося перевірити нормальність встановлених значень:
Вони явно ненормальні; насправді вони виглядають бімодально. Чому? Добре, тому що розподіл пристосованих значень залежить від структури 's. Помилки були нормальними, але встановлені значення можуть бути майже будь-якими.
Інша річ, яку люди часто перевіряють (набагато частіше насправді) - це нормальність s ..., але безумовно на x ; знову ж таки, це залежить від шаблону x s, і тому не розповідає багато про фактичні припущення. Знову я створив деякі дані, де всі припущення містяться; ось що відбувається, коли ми намагаємося перевірити нормальність безумовних значень y :
Що таке припущення, як ми їх перевіряємо і коли нам потрібно їх робити?
Умовна незалежність / незалежність помилок. Конкретні форми залежності можуть бути перевірені (наприклад, послідовна кореляція). Якщо ви не можете передбачити форму залежності, це важко перевірити.
(Насправді є деякі інші припущення, які я не згадував, наприклад помилки з добавкою, що помилки мають нульове значення тощо).
Якщо вам цікаво лише оцінити відповідність найменших ліній квадратів, а не сказати стандартні помилки, вам не потрібно робити більшість цих припущень. Наприклад, розподіл помилок впливає на умовиводи (тести та інтервали), і це може вплинути на ефективність оцінки, але лінія LS все ще найкраща лінійна неупереджена, наприклад; тому, якщо розподіл не є настільки ненормативним, що всі лінійні оцінювачі є поганими, це не обов'язково велика проблема, якщо припущення про термін помилки не виконуються.