А) Який найкращий єдиний показник ступеня, до якого дані порушують нормальність?
Б) Або просто краще говорити про багаторазові показники порушення нормальності (наприклад, косоокість, куртоз, поширеність у зовнішніх умовах)?
Я б проголосував за Б. Різні порушення мають різні наслідки. Наприклад, одномодальні, симетричні розподіли з важкими хвостами роблять ваші КІ дуже широкими і, імовірно, зменшують потужність виявлення будь-яких ефектів. Середнє, однак, все ще досягає "типового" значення. Наприклад, для дуже перекошених розподілів середнє значення, наприклад, може бути не дуже розумним показником "типового значення".
В) Як можна обчислити довірчі інтервали (або, можливо, байєсівський підхід) для індексу?
Я не знаю про байєсівські статистичні дані, але щодо класичного тесту на нормальність я б хотів навести Ерцега-Гарна та ін. (2008) [2]:
Інша проблема полягає в тому, що тести припущення мають свої припущення. Тести на нормальність зазвичай передбачають, що дані є гомоскедастичними; тести гомоседастичності припускають, що дані нормально розподіляються. Якщо припущення щодо нормальності та гомоскедастичності будуть порушені, обгрунтованість тестів припущення може бути серйозно порушена. Видатні статистики описали тести припущення (наприклад, тест Левене, тест Колмогорова – Смірнова), вбудовані в програмне забезпечення, наприклад SPSS, як фатально недосконалі, і рекомендували такі тести ніколи не застосовувати (D'Agostino, 1986; Glass & Hopkins, 1996).
Г) Які словесні мітки ви могли б призначити балам на цьому індексі для позначення ступеня порушення нормальності (наприклад, легкий, помірний, сильний, екстремальний тощо)?
Micceri (1989) [1] провів аналіз 440 великих масштабних даних у психології. Він оцінив симетрію та вагу хвоста та визначив критерії та мітки. Мітки для асиметрії варіюються від 'відносно симетричної' до 'помірної -> крайньої -> експоненціальної асиметрії'. Мітки для хвостової маси варіюються від "Уніфікована -> менше, ніж гауссова -> Про Гаусса -> Помірна -> Екстремальна -> Подвійне експоненційне забруднення". Кожна класифікація базується на декількох надійних критеріях
Він виявив, що з цих 440 наборів даних лише 28% були відносно симетричними, і лише 15% були щодо Гаусса щодо ваги хвоста. Тому приємна назва статті:
Єдиноріг, звичайна крива та інші неймовірні істоти
Я написав R
функцію, яка автоматично оцінює критерії Micceri, а також роздруковує мітки:
# This function prints out the Micceri-criteria for tail weight and symmetry of a distribution
micceri <- function(x, plot=FALSE) {
library(fBasics)
QS <- (quantile(x, prob=c(.975, .95, .90)) - median(x)) / (quantile(x, prob=c(.75)) - median(x))
n <- length(x)
x.s <- sort(x)
U05 <- mean(x.s[(.95*n ):n])
L05 <- mean(x.s[1:(.05*n)])
U20 <- mean(x.s[(.80*n):n])
L20 <- mean(x.s[1:(.20*n)])
U50 <- mean(x.s[(.50*n):n])
L50 <- mean(x.s[1:(.50*n)])
M25 <- mean(x.s[(.375*n):(.625*n)])
Q <- (U05 - L05)/(U50 - L50)
Q1 <- (U20 - L20)/(U50 - L50)
Q2 <- (U05 - M25)/(M25 - L05)
# mean/median interval
QR <- quantile(x, prob=c(.25, .75)) # Interquartile range
MM <- abs(mean(x) - median(x)) / (1.4807*(abs(QR[2] - QR[1])/2))
SKEW <- skewness(x)
if (plot==TRUE) plot(density(x))
tail_weight <- round(c(QS, Q=Q, Q1=Q1), 2)
symmetry <- round(c(Skewness=SKEW, MM=MM, Q2=Q2), 2)
cat.tail <- matrix(c(1.9, 2.75, 3.05, 3.9, 4.3,
1.8, 2.3, 2.5, 2.8, 3.3,
1.6, 1.85, 1.93, 2, 2.3,
1.9, 2.5, 2.65, 2.73, 3.3,
1.6, 1.7, 1.8, 1.85, 1.93), ncol=5, nrow=5)
cat.sym <- matrix(c(0.31, 0.71, 2,
0.05, 0.18, 0.37,
1.25, 1.75, 4.70), ncol=3, nrow=3)
ts <- c()
for (i in 1:5) {ts <- c(ts, sum(abs(tail_weight[i]) > cat.tail[,i]) + 1)}
ss <- c()
for (i in 1:3) {ss <- c(ss, sum(abs(symmetry[i]) > cat.sym[,i]) + 1)}
tlabels <- c("Uniform", "Less than Gaussian", "About Gaussian", "Moderate contamination", "Extreme contamination", "Double exponential contamination")
slabels <- c("Relatively symmetric", "Moderate asymmetry", "Extreme asymmetry", "Exponential asymmetry")
cat("Tail weight indexes:\n")
print(tail_weight)
cat(paste("\nMicceri category:", tlabels[max(ts)],"\n"))
cat("\n\nAsymmetry indexes:\n")
print(symmetry)
cat(paste("\nMicceri category:", slabels[max(ss)]))
tail.cat <- factor(max(ts), levels=1:length(tlabels), labels=tlabels, ordered=TRUE)
sym.cat <- factor(max(ss), levels=1:length(slabels), labels=slabels, ordered=TRUE)
invisible(list(tail_weight=tail_weight, symmetry=symmetry, tail.cat=tail.cat, sym.cat=sym.cat))
}
т
> micceri(rnorm(10000))
Tail weight indexes:
97.5% 95% 90% Q Q1
2.86 2.42 1.88 2.59 1.76
Micceri category: About Gaussian
Asymmetry indexes:
Skewness MM.75% Q2
0.01 0.00 1.00
Micceri category: Relatively symmetric
> micceri(rt(10000, 8))
Tail weight indexes:
97.5% 95% 90% Q Q1
3.19 2.57 1.94 2.81 1.79
Micceri category: Extreme contamination
Asymmetry indexes:
Skewness MM.75% Q2
-0.03 0.00 0.98
Micceri category: Relatively symmetric
> micceri(rlnorm(10000))
Tail weight indexes:
97.5% 95% 90% Q Q1
6.24 4.30 2.67 3.72 1.93
Micceri category: Double exponential contamination
Asymmetry indexes:
Skewness MM.75% Q2
5.28 0.59 8.37
Micceri category: Exponential asymmetry
[1] Міцчері, Т. (1989). Єдиноріг, звичайна крива та інші неймовірні істоти. Психологічний вісник, 105 , 156-166. doi: 10.1037 / 0033-2909.105.1.156
[2] Erceg-Hurn, DM, & Mirosevich, VM (2008). Сучасні надійні статистичні методи: простий спосіб досягти максимальної точності та потужності ваших досліджень. Американський психолог, 63 , 591-601.