Т-тест на ненормований при N> 50?


77

Давно я дізнався, що для нормального розподілу необхідно використовувати два зразки Т-тесту. Сьогодні колега сказала мені, що дізналася, що для N> 50 нормальний розподіл не потрібен. Це правда?

Якщо це правда через центральну межу теореми?


3
Питання, пов'язані з дуже хорошою відповіддю від Glen_b stats.stackexchange.com/questions/121852/…
Тім

Відповіді:


82

Припущення про нормальність t-тесту

Розглянемо велику сукупність, з якої можна було взяти багато різних зразків певного розміру. (У конкретному дослідженні ви зазвичай збираєте лише один із цих зразків.)

T-тест передбачає, що засоби різних зразків зазвичай розподіляються; не передбачається, що населення нормально розподілене.

За центральною граничною теоремою засоби зразків із сукупності з кінцевою дисперсією наближаються до нормального розподілу незалежно від розподілу сукупності. Правила роботи говорять про те, що засоби вибірки в основному зазвичай розподіляються до тих пір, поки розмір вибірки становить принаймні 20 або 30. Щоб t-тест був дійсним для вибірки менших розмірів, розподіл популяції повинен був бути приблизно нормальним.

T-тест недійсний для малих вибірок з ненормальних розподілів, але він справедливий для великих зразків з ненормальних розподілів.

Невеликі зразки з ненормальних розподілів

Як зазначає Майкл нижче, розмір вибірки, необхідний для розподілу засобів для наближення нормальності, залежить від ступеня ненормальності населення. Для приблизно нормальних розподілів вам не знадобиться такий великий вибірки, як дуже не нормальний розподіл.

Ось декілька симуляцій, які можна запустити в R, щоб відчути це. По-перше, ось кілька розподілів населення.

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

Далі наведено кілька моделей зразків з розподілу населення. У кожному з цих рядків "10" - це розмір вибірки, "100" - кількість вибірок, а функція після цього визначає розподіл популяції. Вони виробляють гістограми зразкового засобу.

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Щоб t-тест був дійсним, ці гістограми повинні бути нормальними.

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Корисність t-тесту

Мушу зазначити, що всі знання, які я тільки що передав, дещо застаріли; тепер, коли у нас є комп’ютери, ми можемо зробити краще, ніж t-тести. Як зазначає Франк, ви, мабуть, хочете використовувати тести Вілкоксона в будь-якому місці, де вас навчали проводити t-тест.


7
Гарне пояснення (+1). Хочеться додати, що розмір вибірки, необхідний для розподілу засобів для наближення нормальності, залежить від ступеня ненормальності населення. Для великих зразків немає причин віддавати перевагу t-тесту над тестом перестановки, який не робить припущень щодо розподілів.
Майкл Лев

2
+1, хоча, наскільки мені відомо, t-тест досить стійкий до помірних відхилень від нормальності. Крім того , цікаво , пов'язане обговорення: stats.stackexchange.com/questions/2492 / ...
Nico

4
хороша відповідь, хоча є одна невелика деталь, яку ви пропустили: розподіл даних повинен мати кінцеву дисперсію. Т-тест є безнадійним для порівняння різниці в розташуванні двох розподілів Коші (або студента з 2 ступенями свободи), не тому, що він "ненадійний", а тому, що для цих розподілів є додаткова відповідна інформація у вибірці поза засобами і стандартні відхилення, які викидає t-тест.
ймовірністьлогічний

2
На додаток до цього, t-тест також, природно, дає довірчі інтервали для досліджуваного параметра. (все ще піднято через два перші пункти, які безпосередньо стосуються питання, я просто не погоджуюся з третім)
Ерік

6
t-тест НЕ вимагає нормальної сукупності. Це припущення, необхідне для статистики t, щоб мати розподіл t-Student. Якщо у вас немає нормальної сукупності, ви не можете виразити t-статистику як стандартну звичайну змінну, розділену на корінь Chi-квадратної змінної, поділену на її ступінь свободи. Можливо, те, що ви намагаєтесь сказати, це те, що якщо деякі умови справжні, наприклад, не надто велика косостість чи великий вибірки, тест все ще може бути дійсним навіть у тому випадку, коли кількість населення не є нормальною.
тонлой

44

Центральна гранична теорема є менш корисною, ніж можна думати в цьому контексті. По-перше, як уже хтось вказував, невідомо, чи поточний розмір вибірки "достатньо великий". По-друге, CLT більше стосується досягнення бажаної помилки типу I, ніж про помилку типу II. Іншими словами, тест може бути неконкурентоспроможним. Ось чому тест Вілкоксона настільки популярний. Якщо нормальність дотримується, вона на 95% ефективніша, ніж t-тест. Якщо нормальність не дотримується, це може бути довільно ефективніше, ніж t-тест.


7
(+1) Ласкаво просимо на сайт, який я радий, що ти знайшов. Я з нетерпінням чекаю на вашу участь тут.
кардинал

4
(+1) Добрий момент про Вілкоксона.
whuber

18

Дивіться мою попередню відповідь на питання про надійність t-тесту .

Зокрема, рекомендую пограти з аплетом onlinestatsbook .

Зображення нижче базується на наступному сценарії:

  • нульова гіпотеза вірна
  • досить сильна косоокість
  • однаковий розподіл в обох групах
  • однакова дисперсія в обох групах
  • розмір вибірки для групи 5 (тобто набагато менше 50 відповідно до вашого запитання)
  • Я натиснув кнопку 10 000 моделювання приблизно 100 разів, щоб отримати більше одного мільйона симуляцій.

Отримане моделювання говорить про те, що замість отримання 5% помилок типу I я отримував лише 4,5% помилок типу I.

Чи вважаєте ви це надійним, залежить від вашої точки зору.

введіть тут опис зображення


4
+1 Хороші бали. Потужність Т-тест з перекошеними альтернатив, однак, може погіршити сильно (до точки , де вона практично дорівнює нулю , навіть для величезних розмірів ефекту).
whuber

6

h=0.24999

p=1041p

редагувати : так, в коментарі @ @ whuber, приклад, який я наводив, не мав середнього нуля, тому тестування на середній нуль не має нічого спільного з показником типу I.

Оскільки приклад лотереї часто має вибіркове стандартне відхилення нуля, t-тест задихається. Тому замість цього я навожу приклад коду, використовуючи розподіл Лаберта Ш. Гаусса з Герґа . Я використовую тут розповсюдження, має косою близько 1355.

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

Цей код дає емпіричну норму відхилення на номінальному рівні 0,05 для різних розмірів вибірки. Для вибірки розміром 50 емпірична норма становить 0,40 (!); для зразка розміром 250, 0,29; для зразка розміром 1000, 0,21; для розміру зразка 2000, 0,18. Очевидно, що однопробальний тест страждає від перекосу.


p=0

1

Центральна гранична теорема встановлює (за необхідних умов), що чисельник t-статистики є асимптотично нормальним. T-статистика також має знаменник. Щоб мати t-розподіл, знаменник повинен бути незалежним та квадратним-коренем-а-хі-квадратом-на-його-df.

І ми знаємо, що це не буде незалежним (що характеризує нормальне!)

Теорема Слуцького в поєднанні з CLT дасть вам зрозуміти, що t-статистика є асимптотично нормальною (але не обов'язково з дуже корисною швидкістю).

Яка теорема встановила б, що t-статистика приблизно t-розподілена, коли існує ненормальність, і як швидко вона входить? (Звичайно, врешті-решт t- наблизиться до нормального, але ми припускаємо, що наближення до іншого наближення буде кращим, ніж просто використання нормального наближення ...)


t

n


3
xi+xjxixjcov(xi+xj,xixj)=var(xi)var(xj)+cov(xi,xj)cov(xj,xi)=0var(xi)=var(xj)

1
На жаль, відмінність між некоррельованим та незалежним є актуальним, якщо ми хочемо закінчити t-розподіл.
Glen_b

0

Так, теорема про центральну межу говорить нам, що це правда. Поки ви уникаєте надзвичайно важких хвороб, ненормальність не представляє проблем у зразках середнього та великого розміру.

Ось корисний оглядовий документ;

http://www.an yearreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

Тест Вілкоксона (згаданий іншими) може мати жахливу силу, коли альтернативою є не зміщення місця розташування вихідного розподілу. Крім того, спосіб вимірювання відмінностей між розподілами не є перехідним.


Цікаві моменти про Вілкоксона. Однак t-тест має схожі труднощі: особливо погано виявляти зрушення, що супроводжуються підвищеною дисперсією. Дещо про транзитивність, як видається, є в основному цікавістю в цьому контексті; важко зрозуміти, наскільки це стосується тесту оригінальної гіпотези або його інтерпретації. (Але, може, нечутливість може стати важливою в налаштуваннях ANOVA або в кількох порівняннях.)
whuber

Нерівномірний тест дисперсії (який є типовим для деяких програм) не має проблем з гетерокедастичністю.
гість

Щодо транзитивності; звітність про вибіркові засоби або відмінності в засобах (що природно за допомогою тестового підходу) дає читачеві щось, що вони можуть врахувати під час відбору проб з інших груп. Неперехідність тесту Вілкоксона означає, що такий підхід не має такого аналога; використання рангів даних - дуже обмежений підхід.
гість

1
(1) Тест Satterthwaite-Welch (неоднакова дисперсія) не долає втрат потужності, про які я згадував (хоча це може трохи допомогти). (2) Я думаю, що ти надзвичайно характеризуєш використання рангів як "обмежених". У своїй відповіді @Frank Harrell посилався на дослідження, що показують, як тест Вілкоксона підтримує високу ефективність у багатьох налаштуваннях: це демонструє, наскільки використання рангів є ефективними та гнучкішими, не більш обмеженими, порівняно з t-тестами.
whuber

(1) Ні, але це дає правильний показник помилок типу I у зразках середнього та великого розміру (2) Дякую, але я з повагою не згоден. Використання t-тестів за Wilcoxon значно полегшує усунення розриву між тестуванням та використанням довірчих інтервалів. Якщо хтось хоче зробити тестування і ніколи не виглядає за межами двох груп у дослідженні, звичайно, у Вілкоксона є ситуації, коли це працює добре. Але часто ми не хочемо робити просто тестування і хочемо допомогти користувачам узагальнити результати в інших ситуаціях; тест Вілкоксона тоді не корисний.
гість

0

Про використання тесту Вілкоксона-Манна-Уітні як альтернативи я рекомендую статтю Тест Вілкоксона-Ман-Уітні під наглядом

Як випробування засобів або медіанів, тест Вілкоксона – Манна – Уітні (WMW) може бути сильно непосильним для відхилень від чистої моделі зсуву.

Такі рекомендації авторів статті:

Перетворення рангів може по-різному змінювати значення, стандартні відхилення та похилість двох зразків. Єдина ситуація, в якій трансформація рангів гарантується для досягнення сприятливого ефекту - це коли розподіли однакові, а розміри вибірки рівні. Для відхилень від цих досить суворих припущень вплив перетворення рангів на вибіркові моменти непередбачуваний. Під час імітаційного дослідження статті тест WMW порівнювали з тестом Флігнера – Полічелло (FP), тестом Бруннера – Мюнзеля (BM), двопробним тестом T (T), тестом Welch U (U), і тест Welch U на звання (RU). Чотири тести на основі ранжування (WMW, FP, BM та RU) виконували аналогічно, хоча тест на ІМ часто був трохи кращим, ніж інші. Коли розміри вибірки були рівними, параметричні тести (T і U) були вищими за рангові тести за нульовою гіпотезою рівних засобів, але не під нульовою гіпотезою рівних медіанів. Коли розміри вибірки були неоднаковими, тести BM, RU та U виявились найкращими. Для кількох налаштувань невеликі зміни властивостей популяції призвели до великих змін у виконанні тестів. Підсумовуючи, великий тестовий приблизний тест на ЗМЗ може бути поганим методом порівняння засобів або медіанів двох сукупностей, якщо два розподіли не мають однакових форм і рівних масштабів. Ця проблема також, як видається, застосовується в різних ступенях до точного тесту на WMW, FP-тесту, тесту BM та Welch U-тесту на ранги. Використовуючи тест WMW, автори рекомендують ретельно дослідити властивості ранжированих зразків на предмет ознак спотвореності та неоднорідності дисперсії.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.