Це питання, здається, весь час отакує свою некрасиву голову, і я намагаюся обезголовити це для мого власного розуміння статистики (і розуму!).
Припущення загальних лінійних моделей (t-тест, ANOVA, регресія тощо) включають "припущення про нормальність", але я вважаю, що це рідко описано чітко.
Я часто натрапляю на підручники / посібники зі статистики / тощо, просто кажу, що "припущення про нормальність" застосовується до кожної групи (тобто категоричних змінних X), і ми повинні вивчати відступи від нормальності для кожної групи .
Запитання :
чи припущення стосується значень Y або залишків Y?
для певної групи , чи можливо сильно ненормальний розподіл значень Y (наприклад, перекошений), АЛЕ приблизно (або принаймні більш нормальний) розподіл залишків Y?
Інші джерела описують, що припущення стосується залишків моделі (у випадках, коли є групи, наприклад, t-тести / ANOVA), і ми повинні вивчати відхилення нормальності цих залишків (тобто, лише один графік QQ / тест для бігати).
чи означає нормальність залишків для моделі нормальність залишків для груп ? Іншими словами, чи варто просто вивчити залишки моделі (всупереч інструкціям у багатьох текстах)?
Щоб поставити це в контексті, розглянемо цей гіпотетичний приклад:
- Я хочу порівняти висоту дерева (Y) між двома популяціями (X).
- У однієї популяції розподіл Y сильно косий (тобто більшість дерев короткі, дуже високі), а в іншої - практично нормально
- Висота в цілому середньорозподіленої сукупності більша (припускаючи, що може бути "реальна" різниця).
- Трансформація даних суттєво не покращує розподіл першої сукупності.
По-перше, чи справедливо порівнювати групи з урахуванням кардинально різних розподілів висоти?
Як я тут підходжу до "припущення про нормальність"? Нагадаємо, висота в одній популяції зазвичай не розподілена. Чи слід розглядати залишки для обох груп населення окремо АБО залишки для моделі (t-тест)?
Будь ласка, зверніться до запитань за номерами у відповідях. Досвід показав, що люди легко губляться або перебувають у дорозі (особливо я!). Майте на увазі, що я не статистик; хоча у мене є досить концептуальне (тобто не технічне!) розуміння статистики.
PS, я здійснив пошук в архівах і прочитав наступні теми, які не зміцнили моє розуміння:
- Нормальність припущення ANOVA / нормальний розподіл залишків
- Нормальність залишків та вибіркових даних; що з t-тестами?
- Чи є тестування на нормальність "по суті марним"?
- Нормальність тестування
- Оцінка нормальності розподілу
- Які тести я використовую для підтвердження того, що залишки нормально розподіляються?
- Що робити, коли тест Колмогорова-Смірнова є значущим для залишків параметричного тесту, але перекос і куртоз виглядають нормально?