Які припущення щодо нормальності необхідні для непарного тесту? А коли їх зустрічають?


12

Якщо ми хочемо провести парний t-тест, вимога полягає (якщо я правильно розумію), щоб середня різниця між зібраними одиницями вимірювання розподілялася нормально.

У парному t-тесті це сформульовано (AFAIK) з вимогою, щоб різниця між зібраними одиницями вимірювання розподілялася нормально (навіть якщо розподіл кожної з двох порівняних груп не є нормальним).

Однак у непарному t-тесті ми не можемо говорити про різницю між зібраними одиницями, тому ми вимагаємо, щоб спостереження з двох груп були нормальними, щоб різниця середнього їх значення була нормальною. Що призводить мене до мого питання:

Чи можливі два ненормативні розподіли, щоб різниця їхніх засобів АРЕПРИСТАЧАЛА нормально? (і, таким чином, задовольнити нашу необхідну вимогу щодо проведення непарного тестування на них - знову ж - наскільки я розумію).

Оновлення: (дякую всім за відповіді) Я бачу, що загальне правило, яке ми шукаємо, насправді полягає в тому, що різниця засобів буде нормальною, що, здається, є хорошим припущенням (під досить великим n) завдяки CLT. Це для мене дивовижно (не дивно, просто дивовижно), що стосується того, як це працює для непарного t-тесту, але не працюватиме так само для єдиного зразкового t-тесту. Ось декілька код R для ілюстрації:

n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000

# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)

P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    y2 <- runif(n2, 0, 2*mean2)
    MEAN[i] <- mean(y1) - mean(y2)
    P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)



n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)

for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}

par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057  # "wrong" type I error

Дякую.


5
(Хi,Yi)ХiЖYi=Хi+Zi{Zi}N(0,σ2)

Відповіді:


17

На практиці теорема про центральну межу запевняє, що при широкому діапазоні припущень розподіли двох вибіркових засобів, що випробовуються, самі наблизяться до нормальних розподілів, оскільки розміри вибірки набувають великих розмірів, незалежно від цього (саме тут припущення) розподіл базових даних. Як наслідок, у міру збільшення розміру вибірки різниця засобів стає звичайно розподіленою, а вимоги, необхідні для t-статистики непарного t-тесту, щоб номінальний розподіл t був задоволений. Таким чином, може бути більш практичним питання, наскільки великим повинен бути розмір вибірки, перш ніж я можу сміливо ігнорувати різницю між фактичним розподілом статистики та t розподілом?

У багатьох випадках відповідь "не дуже велика", особливо коли основні розподіли досить близькі до симетричних. Наприклад, я імітував 100000 тестів, порівнюючи засоби двох уніфікованих (0,1) розподілів, кожен з розміром вибірки 10, і, перевіряючи 95-відсотковий рівень впевненості, фактично відхилив нульові 5,19% часу - навряд чи відрізнявся від номінальної 5% відхилення, на яку ми сподіваємось (хоча це приблизно 2,7 стандартних відхилень вище 5%.)

Ось чому люди використовують t-тест у всіляких ситуаціях, коли основні припущення фактично не виконуються, але, звичайно, ваш пробіг може змінюватися в залежності від специфіки вашої проблеми. Однак є й інші тести, які не потребують нормальності, наприклад, тест Вілкоксона, який, навіть коли дані нормально розподіляються, є асимптотично приблизно на 95% таким же ефективним, як t-тест (тобто потрібен розмір вибірки з N / 0,95, щоб мати таку ж потужність, як t-тест з розміром вибірки N, як N переходить до нескінченності). Коли дані звичайно не поширюються, вони можуть бути (не обов'язково) набагато кращими, ніж t-тест.


6
тт

Дякую Френку - ваш коментар допоміг мені сформулювати питання, яке ближче до того, що я маю після: stats.stackexchange.com/questions/19681/…
Тал Галілі

1

Звичайно. Якби це не так, незалежний t-тест не отримав би великої користі. Нам дійсно потрібні більші розміри вибірки, тому що для того, щоб перевірити на різницю серед двох ненормальних груп, нам потрібно звернутися до CLT.

Для швидкого прикладу припустимо, що у нас популяція 1 походить із експоненції, середня величина 25 і населення 2 рівномірно розподілені із середнім значенням 30. Ми навіть надамо їм різні розміри вибірки. Ми можемо вивчити, як виглядає розподіл відмінностей у зразкових засобах, використовуючи R порівняно легко, використовуючи функцію копіювання.

n1 <- 30
n2 <- 25
mean1 <- 25
mean2 <- 30

diffs <- replicate(10000, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
hist(diffs)

Якщо розібратися з розмірами вибірки, ви побачите, що при малих розмірах вибірки насправді немає нормальності, але збільшення розміру вибірки дає нам більш нормальний розподіл вибірки для різниці в засобах. Звичайно, ви можете змінити розподіли, використані в цьому прикладі, для подальшого вивчення. hist (відмінність)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.