Замість того, щоб покладатися на тест на нормальність залишків, спробуйте оцінити нормальність з раціональним судженням. Тести на нормальність не говорять про те, що ваші дані є нормальними, лише що це не так. Але враховуючи, що дані є вибіркою, ви можете бути впевнені, що вони насправді не є нормальними без тесту. Вимога приблизно нормальна. Тест не може цього сказати. Тести також стають дуже чутливими при великих N або більш серйозно, відрізняються чутливістю до N. Ваш N знаходиться в тому діапазоні, коли чутливість починає зростати. Якщо ви кілька разів виконаєте наступне моделювання в R і подивитеся на графіки, то побачите, що тест на нормальність говорить про "не нормальне" для великої кількості нормальних розподілів.
# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2))
n <- 158 # use the N we're concerned about
# Run this a few times to get an idea of what data from a
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)
# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
y <- rnorm(n)
p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)
Сподіваємось, пройшовши симуляції, ви зможете побачити, що тест на нормальність може легко відкинути досить нормальні дані і дані, отримані в звичайному розподілі, можуть виглядати досить далеко від нормальних. Якщо ви хочете побачити надзвичайну цінність, спробуйте n <- 1000
. Усі розподіли виглядатимуть нормально, але все ж пройдуть тест приблизно з тією ж швидкістю, що і нижчі N значення. І навпаки, з низьким N розподілом, які проходять тест, може виглядати дуже далеко від норми.
Стандартна залишкова ділянка в SPSS не дуже корисна для оцінки нормальності. Ви можете побачити вигули, асортимент, хорошу форму і, можливо, навіть важелі. Але нормальність складно з цього вивести. Спробуйте наступне моделювання, порівнюючи гістограми, квантильно-кількісні нормальні графіки та залишкові графіки.
par(mfrow = c(1, 3)) # making 3 graphs in a row now
y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)
Надзвичайно складно сказати нормальність, або багато чого іншого, з останнього сюжету, і тому не дуже страшно діагностувати нормальність.
Підсумовуючи це, зазвичай рекомендується не покладатися на тести на нормальність, а на діагностичні схеми залишків. Без цих сюжетів чи фактичних значень у вашому питанні комусь дуже важко дати точні поради щодо того, що потребують ваші дані щодо аналізу чи перетворення. Щоб отримати найкращу допомогу, надайте необроблені дані.