В R у мене є вибірка з 348 заходів, і я хочу знати, чи можу я вважати, що вона зазвичай розподіляється для майбутніх тестів.
По суті, після іншої відповіді стека , я дивлюся на графік щільності та графік QQ з:
plot(density(Clinical$cancer_age))
qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)
Я не маю сильного досвіду статистики, але вони виглядають як приклади нормальних розподілів, які я бачив.
Тоді я запускаю тест Шапіро-Вілка:
shapiro.test(Clinical$cancer_age)
> Shapiro-Wilk normality test
data: Clinical$cancer_age
W = 0.98775, p-value = 0.004952
Якщо я правильно його інтерпретую, це говорить мені, що можна сміливо відкинути нульову гіпотезу, тобто розподіл є нормальним.
Однак я зіткнувся з двома повідомленнями в стеці ( тут і тут ), які сильно підривають корисність цього тесту. Схоже, якщо вибірка велика (чи 348 вважається великою?), Вона завжди скаже, що розподіл не є нормальним.
Як мені все це інтерпретувати? Чи слід дотримуватися QQ-сюжету і вважати, що мій розподіл є нормальним?