Що таке хороший показник ступеня порушення нормальності та які описові мітки можуть бути додані до цього показника?


12

Контекст:

У попередньому запитанні @Robbie запитав у дослідженні, в якому було проведено близько 600 випадків, чому тести на нормальність пропонували значну нестандартність, але сюжети пропонували нормальний розподіл . Кілька людей підкреслили, що тести на значущість не є дуже корисними. З невеликими зразками такі тести не мають великої сили для виявлення легких порушень нормальності, а з великими зразками вони виявлять порушення нормальності, які є достатньо малі, щоб не викликати занепокоєння.

Мені здається, що ця проблема схожа на дискусію щодо тестування значущості та розміру ефекту. Якщо ви зосереджуєтесь лише на тестах на значущість, коли у вас є великі зразки, ви можете виявити невеликі ефекти, які не мають значення для практичних цілей, а з невеликими зразками у вас недостатня потужність.

У кількох випадках я навіть бачив підручники, які вказують людям, що ви можете мати "занадто великий" зразок, оскільки невеликі ефекти будуть статистично значущими.

У контексті тестування значущості та розміру ефектів, одна проста резолюція полягає в тому, щоб зосередити увагу на оцінці розміру ефекту інтересу, а не одержимим правилом бінарного рішення про те, чи є ефект чи ні. Інтервали довіри щодо розмірів ефектів є одним із таких підходів, або ви можете прийняти якусь форму баєсівського підходу. Крім того, різні дослідницькі сфери формують уявлення про те, що означає заданий розмір ефекту в практичному розумінні для кращого або гіршого, застосовуючи евристичні мітки, такі як "малий", "середній" та "великий ефект". Це також призводить до розумної рекомендації щодо максимізації розміру вибірки, щоб досягти максимальної точності при оцінці заданого параметра, що цікавить.

Це змушує мене замислитися, чому подібний підхід, заснований на довірчих інтервалах розмірів ефектів, не застосовується більш широко стосовно тестування припущення та, зокрема, тестування на нормальність.

Питання:

  • Який найкращий єдиний показник ступеня, до якого дані порушують нормальність?
  • Або просто краще поговорити про численні показники порушення нормальності (наприклад, косостість, куртоз, поширеність зовні)?
  • Як можна обчислити довірчі інтервали (або, можливо, байєсівський підхід) для індексу?
  • Які словесні мітки ви могли б призначити балам на цьому індексі, щоб вказати на ступінь порушення нормальності (наприклад, легкий, помірний, сильний, екстремальний тощо)? Метою таких позначок може бути допомога аналітикам з меншим досвідом навчання їх інтуїції, коли порушення нормальності є проблематичними.

5
Захоплююче питання.
rolando2

1
p

1
@NRH Я згоден; це я і роблю. Однак я часто надаю статистичні консультації дослідникам з меншим досвідом судження про ступінь ненормативності за сюжетом. Я думав, що індекс з різними якісними мітками може доповнити навчання зорової інтуїції.
Джеромі Англім

Відповіді:


13

А) Який найкращий єдиний показник ступеня, до якого дані порушують нормальність?

Б) Або просто краще говорити про багаторазові показники порушення нормальності (наприклад, косоокість, куртоз, поширеність у зовнішніх умовах)?

Я б проголосував за Б. Різні порушення мають різні наслідки. Наприклад, одномодальні, симетричні розподіли з важкими хвостами роблять ваші КІ дуже широкими і, імовірно, зменшують потужність виявлення будь-яких ефектів. Середнє, однак, все ще досягає "типового" значення. Наприклад, для дуже перекошених розподілів середнє значення, наприклад, може бути не дуже розумним показником "типового значення".

В) Як можна обчислити довірчі інтервали (або, можливо, байєсівський підхід) для індексу?

Я не знаю про байєсівські статистичні дані, але щодо класичного тесту на нормальність я б хотів навести Ерцега-Гарна та ін. (2008) [2]:

Інша проблема полягає в тому, що тести припущення мають свої припущення. Тести на нормальність зазвичай передбачають, що дані є гомоскедастичними; тести гомоседастичності припускають, що дані нормально розподіляються. Якщо припущення щодо нормальності та гомоскедастичності будуть порушені, обгрунтованість тестів припущення може бути серйозно порушена. Видатні статистики описали тести припущення (наприклад, тест Левене, тест Колмогорова – Смірнова), вбудовані в програмне забезпечення, наприклад SPSS, як фатально недосконалі, і рекомендували такі тести ніколи не застосовувати (D'Agostino, 1986; Glass & Hopkins, 1996).

Г) Які словесні мітки ви могли б призначити балам на цьому індексі для позначення ступеня порушення нормальності (наприклад, легкий, помірний, сильний, екстремальний тощо)?

Micceri (1989) [1] провів аналіз 440 великих масштабних даних у психології. Він оцінив симетрію та вагу хвоста та визначив критерії та мітки. Мітки для асиметрії варіюються від 'відносно симетричної' до 'помірної -> крайньої -> експоненціальної асиметрії'. Мітки для хвостової маси варіюються від "Уніфікована -> менше, ніж гауссова -> Про Гаусса -> Помірна -> Екстремальна -> Подвійне експоненційне забруднення". Кожна класифікація базується на декількох надійних критеріях

Він виявив, що з цих 440 наборів даних лише 28% були відносно симетричними, і лише 15% були щодо Гаусса щодо ваги хвоста. Тому приємна назва статті:

Єдиноріг, звичайна крива та інші неймовірні істоти

Я написав Rфункцію, яка автоматично оцінює критерії Micceri, а також роздруковує мітки:

# This function prints out the Micceri-criteria for tail weight and symmetry of a distribution
micceri <- function(x, plot=FALSE) {
    library(fBasics)
    QS <- (quantile(x, prob=c(.975, .95, .90)) - median(x)) / (quantile(x, prob=c(.75)) - median(x))

    n <- length(x)
    x.s <- sort(x)
    U05 <- mean(x.s[(.95*n ):n])
    L05 <- mean(x.s[1:(.05*n)])
    U20 <- mean(x.s[(.80*n):n])
    L20 <- mean(x.s[1:(.20*n)])
    U50 <- mean(x.s[(.50*n):n])
    L50 <- mean(x.s[1:(.50*n)])
    M25 <- mean(x.s[(.375*n):(.625*n)])
    Q <- (U05 - L05)/(U50 - L50)
    Q1 <- (U20 - L20)/(U50 - L50)
    Q2 <- (U05 - M25)/(M25 - L05)

    # mean/median interval
    QR <- quantile(x, prob=c(.25, .75)) # Interquartile range
    MM <- abs(mean(x) - median(x)) / (1.4807*(abs(QR[2] - QR[1])/2))

    SKEW <- skewness(x)
    if (plot==TRUE) plot(density(x))

    tail_weight <- round(c(QS, Q=Q, Q1=Q1), 2)
    symmetry <- round(c(Skewness=SKEW, MM=MM, Q2=Q2), 2)

    cat.tail <- matrix(c(1.9, 2.75, 3.05, 3.9, 4.3,
                         1.8, 2.3, 2.5, 2.8, 3.3,
                        1.6, 1.85, 1.93, 2, 2.3,
                        1.9, 2.5, 2.65, 2.73, 3.3,
                        1.6, 1.7, 1.8, 1.85, 1.93), ncol=5, nrow=5)

    cat.sym <- matrix(c(0.31, 0.71, 2,
                        0.05, 0.18, 0.37,
                        1.25, 1.75, 4.70), ncol=3, nrow=3)


    ts <- c()
    for (i in 1:5) {ts <- c(ts, sum(abs(tail_weight[i]) > cat.tail[,i]) + 1)}

    ss <- c()
    for (i in 1:3) {ss <- c(ss, sum(abs(symmetry[i]) > cat.sym[,i]) + 1)}

    tlabels <- c("Uniform", "Less than Gaussian", "About Gaussian", "Moderate contamination", "Extreme contamination", "Double exponential contamination")

    slabels <- c("Relatively symmetric", "Moderate asymmetry", "Extreme asymmetry", "Exponential asymmetry")

    cat("Tail weight indexes:\n")
    print(tail_weight)
    cat(paste("\nMicceri category:", tlabels[max(ts)],"\n"))
    cat("\n\nAsymmetry indexes:\n")
    print(symmetry)
    cat(paste("\nMicceri category:", slabels[max(ss)]))

    tail.cat <- factor(max(ts), levels=1:length(tlabels), labels=tlabels, ordered=TRUE)
    sym.cat  <- factor(max(ss), levels=1:length(slabels), labels=slabels, ordered=TRUE)

    invisible(list(tail_weight=tail_weight, symmetry=symmetry, tail.cat=tail.cat, sym.cat=sym.cat))
}

т

> micceri(rnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 2.86  2.42  1.88  2.59  1.76 

Micceri category: About Gaussian 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    0.01     0.00     1.00 

Micceri category: Relatively symmetric



> micceri(rt(10000, 8))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 3.19  2.57  1.94  2.81  1.79 

Micceri category: Extreme contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
   -0.03     0.00     0.98 

Micceri category: Relatively symmetric



> micceri(rlnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 6.24  4.30  2.67  3.72  1.93 

Micceri category: Double exponential contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    5.28     0.59     8.37 

Micceri category: Exponential asymmetry

[1] Міцчері, Т. (1989). Єдиноріг, звичайна крива та інші неймовірні істоти. Психологічний вісник, 105 , 156-166. doi: 10.1037 / 0033-2909.105.1.156

[2] Erceg-Hurn, DM, & Mirosevich, VM (2008). Сучасні надійні статистичні методи: простий спосіб досягти максимальної точності та потужності ваших досліджень. Американський психолог, 63 , 591-601.


3
+1, це справді чудова відповідь. Однак, я хочу піддавати каламбур w / 1 бал. Ви заявляєте, що "одномодальні, симетричні розподіли з важкими хвостами роблять ваші КІ дуже широкими і, імовірно, зменшують потужність виявлення будь-яких ефектів". Якщо вони не завантажуються, CI, як правило, базується на асимптотиці (звичайні припущення), тому факт, що у вашому диханні є жирові хвости, не впливає ні на ширину, ні на потужність. Швидше це означатиме, що ймовірність емпіричного покриття не відповідатиме передбачуваній ймовірності покриття.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.