Чому нормальність залишків "ледве важлива взагалі" для оцінки лінії регресії?


21

Гельман і Хілл (2006) на p46 пишуть, що:

Припущення регресії, яке, як правило, є найменш важливим, полягає в тому, що помилки зазвичай розподіляються. Насправді, для оцінки лінії регресії (порівняно з прогнозуванням окремих точок даних) припущення про нормальність ледве важливе. Таким чином, на відміну від багатьох регресійних підручників, ми не рекомендуємо діагностувати нормальність залишків регресії.

Гелман і Хілл, схоже, більше не пояснюють цю точку.

Чи правильно Гельман і Хілл? Якщо так, то:

  1. Чому "ледве важливе взагалі"? Чому це ні важливо, ні зовсім не має значення?

  2. Чому важлива нормальність залишків при прогнозуванні окремих точок даних?

Гельман, А., І Хілл, Дж. (2006). Аналіз даних за допомогою регресійної та багаторівневої / ієрархічної моделей. Cambridge University Press

Відповіді:


21

Оскільки оцінка нормальності не є саме припущенням, але головним питанням буде ефективність; у багатьох випадках хороший лінійний оцінювач зробить це добре, і в такому випадку (за Гауссом-Марковим) оцінка LS була б найкращою з тих речей, що буде-гаразд. (Якщо ваші хвости досить важкі або дуже легкі, можливо, має сенс розглянути щось інше)

Що стосується тестів та КІ, хоча нормальність передбачається, зазвичай це не все так критично (знову ж таки, доки хвости не справді важкі чи легкі, чи, можливо, кожен із них), в тому, щонайменше, у не дуже невеликі зразки тестів і типових ІС мають, як правило, близькі до своїх номінальних властивостей (не надто далеко від заявленого рівня значущості чи покриття) і добре працюють (розумна потужність для типових ситуацій або КІ не надто ширша, ніж альтернативи) - під час переміщення далі від звичайного випадку потужність може бути більшою проблемою, і в такому випадку великі зразки взагалі не покращуватимуть відносну ефективність, тому, коли розміри ефектів такі, що потужність середня в тесті з відносно хорошою потужністю, вона може бути дуже поганою для тестів, які передбачають нормальність.

Ця тенденція мати близькі до номінальних властивостей для КІ та рівня значущості в тестах пояснюється кількома факторами, що діють разом (один з яких - це тенденція лінійних комбінацій змінних до близького до нормального розподілу, якщо існує багато значень і жоден з них не вносить великої частки від загальної дисперсії).

Однак у випадку інтервалу прогнозування, заснованого на звичайному припущенні, нормальність є відносно більш критичною, оскільки ширина інтервалу сильно залежить від розподілу одного значення. Однак навіть для найбільш поширеного розміру інтервалу (інтервал 95%) факт, що багато унімодальних розподілів мають дуже близькі до 95% їх розподілу протягом приблизно 2sds середнього значення, як правило, призводить до розумного виконання нормального інтервалу прогнозування навіть коли розподіл не є нормальним. [Це не дуже добре переноситься на більш вузькі або більш широкі інтервали - скажімо, 50% інтервал або 99,9% інтервал - хоча.]


"Тенденція лінійних комбінацій змінних до близького до нормального розподілу." - Я припускаю, що це не пов'язане з теоремою про центральний межа. Є це? Якщо ні, то яка «теорема» це твердження?
Гейзенберг

1
@Heisenberg Це стосується конкретних версій CLT, так. (див. версії Ляпунова та Ліндеберга тут ). Якщо ви хочете, щоб теорема застосовувалась для кінцевих зразків, ми розглядаємо версію теореми Беррі-Ессена. Але твердження призначалося швидше спостереження (звідси вживання слова "тенденція"), ніж теореми.
Glen_b -Встановіть Моніку

7

2: При прогнозуванні окремих точок даних інтервал довіри навколо цього прогнозу передбачає, що залишки зазвичай розподіляються.

Це не сильно відрізняється від загального припущення про довірчі інтервали - щоб бути дійсним, нам потрібно зрозуміти розподіл, і найпоширенішим припущенням є нормальність. Наприклад, стандартний довірчий інтервал навколо середнього працює, тому що розподіл вибірки означає наближення до нормальності, тому ми можемо використовувати розподіл az або t

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.