Якщо ми хочемо провести парний t-тест, вимога полягає (якщо я правильно розумію), щоб середня різниця між зібраними одиницями вимірювання розподілялася нормально.
У парному t-тесті це сформульовано (AFAIK) з вимогою, щоб різниця між зібраними одиницями вимірювання розподілялася нормально (навіть якщо розподіл кожної з двох порівняних груп не є нормальним).
Однак у непарному t-тесті ми не можемо говорити про різницю між зібраними одиницями, тому ми вимагаємо, щоб спостереження з двох груп були нормальними, щоб різниця середнього їх значення була нормальною. Що призводить мене до мого питання:
Чи можливі два ненормативні розподіли, щоб різниця їхніх засобів АРЕПРИСТАЧАЛА нормально? (і, таким чином, задовольнити нашу необхідну вимогу щодо проведення непарного тестування на них - знову ж - наскільки я розумію).
Оновлення: (дякую всім за відповіді) Я бачу, що загальне правило, яке ми шукаємо, насправді полягає в тому, що різниця засобів буде нормальною, що, здається, є хорошим припущенням (під досить великим n) завдяки CLT. Це для мене дивовижно (не дивно, просто дивовижно), що стосується того, як це працює для непарного t-тесту, але не працюватиме так само для єдиного зразкового t-тесту. Ось декілька код R для ілюстрації:
n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)
P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
y2 <- runif(n2, 0, 2*mean2)
MEAN[i] <- mean(y1) - mean(y2)
P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)
n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057 # "wrong" type I error
Дякую.