Чому потрібно перевіряти нормальність?
Стандартне припущення в лінійній регресії полягає в тому, що теоретичні залишки незалежні і нормально розподілені. Спостережувані залишки є оцінкою теоретичних залишків, але не є незалежними (є перетворення на залишки, які усувають частину залежності, але все ж дають лише наближення справжніх залишків). Тож тест на спостережуваних залишків не гарантує, що теоретичні залишки відповідають.
Якщо теоретичні залишки точно не розподілені нормально, але розмір вибірки досить великий, то теорема центрального граничного значення говорить, що звичайні умовиводи (тести та інтервали довіри, але не обов'язково інтервали прогнозування), засновані на припущенні про нормальність, все ще будуть приблизно правильними .
Також зауважте, що тести на нормальність виключають тести, вони можуть вам сказати, що дані навряд чи надійдуть із звичайного розподілу. Але якщо тест не суттєвий, це не означає, що дані надійшли від нормального розподілу, це також може означати, що у вас просто не вистачає енергії, щоб побачити різницю. Більші розміри вибірки дають більше можливостей виявити ненормальність, але більші вибірки та CLT означають, що ненормальність є найменш важливою. Отже, для малих розмірів вибірки важливе припущення про нормальність, але тести є безглуздими, для великих розмірів вибірки тести можуть бути більш точними, але питання точної нормальності стає безглуздим.
Отже, поєднуючи все вищезазначене, важливіше, ніж тест на точну нормальність, - це розуміння науки, що стоїть за даними, щоб побачити, чи достатньо близько до норми населення. Такі графіки, як qqplots, можуть бути хорошою діагностикою, але розуміння науки також потрібне. Якщо виникає занепокоєння з приводу занадто великої косості або потенціалу для людей, що вижили, існують непараметричні методи, які не потребують припущення про нормальність.