Стандартне визначення викиду для ділянки Box і бакенбард точки за межами діапазону , де я Q R = Q 3 - Q 1 і Q 1 є перший квартал і Q 3 - третій квартал даних.
Що є основою для цього визначення? Маючи велику кількість балів, навіть абсолютно нормальний розподіл повертає видатки.
Наприклад, припустимо, що ви починаєте з послідовності:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Ця послідовність створює відсотковий рейтинг 4000 балів даних.
Нормальність тестування для qnorm
цієї серії призводить до:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Результати точно такі, як і очікувалося: нормальність нормального розподілу в нормі. Створення qqnorm(qnorm(xseq))
створює (як очікувалося) прямий рядок даних:
Якщо створена однакова інформація з однотипних даних, видається boxplot(qnorm(xseq))
результат:
Boxplot, на відміну від shapiro.test
, ad.test
або qqnorm
ідентифікує кілька точок як видаткові, коли розмір вибірки є досить великим (як у цьому прикладі).