Давно я дізнався, що для нормального розподілу необхідно використовувати два зразки Т-тесту. Сьогодні колега сказала мені, що дізналася, що для N> 50 нормальний розподіл не потрібен. Це правда?
Якщо це правда через центральну межу теореми?
Давно я дізнався, що для нормального розподілу необхідно використовувати два зразки Т-тесту. Сьогодні колега сказала мені, що дізналася, що для N> 50 нормальний розподіл не потрібен. Це правда?
Якщо це правда через центральну межу теореми?
Відповіді:
Припущення про нормальність t-тесту
Розглянемо велику сукупність, з якої можна було взяти багато різних зразків певного розміру. (У конкретному дослідженні ви зазвичай збираєте лише один із цих зразків.)
T-тест передбачає, що засоби різних зразків зазвичай розподіляються; не передбачається, що населення нормально розподілене.
За центральною граничною теоремою засоби зразків із сукупності з кінцевою дисперсією наближаються до нормального розподілу незалежно від розподілу сукупності. Правила роботи говорять про те, що засоби вибірки в основному зазвичай розподіляються до тих пір, поки розмір вибірки становить принаймні 20 або 30. Щоб t-тест був дійсним для вибірки менших розмірів, розподіл популяції повинен був бути приблизно нормальним.
T-тест недійсний для малих вибірок з ненормальних розподілів, але він справедливий для великих зразків з ненормальних розподілів.
Невеликі зразки з ненормальних розподілів
Як зазначає Майкл нижче, розмір вибірки, необхідний для розподілу засобів для наближення нормальності, залежить від ступеня ненормальності населення. Для приблизно нормальних розподілів вам не знадобиться такий великий вибірки, як дуже не нормальний розподіл.
Ось декілька симуляцій, які можна запустити в R, щоб відчути це. По-перше, ось кілька розподілів населення.
curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom
Далі наведено кілька моделей зразків з розподілу населення. У кожному з цих рядків "10" - це розмір вибірки, "100" - кількість вибірок, а функція після цього визначає розподіл популяції. Вони виробляють гістограми зразкового засобу.
hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
Щоб t-тест був дійсним, ці гістограми повинні бути нормальними.
require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
Корисність t-тесту
Мушу зазначити, що всі знання, які я тільки що передав, дещо застаріли; тепер, коли у нас є комп’ютери, ми можемо зробити краще, ніж t-тести. Як зазначає Франк, ви, мабуть, хочете використовувати тести Вілкоксона в будь-якому місці, де вас навчали проводити t-тест.
Центральна гранична теорема є менш корисною, ніж можна думати в цьому контексті. По-перше, як уже хтось вказував, невідомо, чи поточний розмір вибірки "достатньо великий". По-друге, CLT більше стосується досягнення бажаної помилки типу I, ніж про помилку типу II. Іншими словами, тест може бути неконкурентоспроможним. Ось чому тест Вілкоксона настільки популярний. Якщо нормальність дотримується, вона на 95% ефективніша, ніж t-тест. Якщо нормальність не дотримується, це може бути довільно ефективніше, ніж t-тест.
Дивіться мою попередню відповідь на питання про надійність t-тесту .
Зокрема, рекомендую пограти з аплетом onlinestatsbook .
Зображення нижче базується на наступному сценарії:
Отримане моделювання говорить про те, що замість отримання 5% помилок типу I я отримував лише 4,5% помилок типу I.
Чи вважаєте ви це надійним, залежить від вашої точки зору.
редагувати : так, в коментарі @ @ whuber, приклад, який я наводив, не мав середнього нуля, тому тестування на середній нуль не має нічого спільного з показником типу I.
Оскільки приклад лотереї часто має вибіркове стандартне відхилення нуля, t-тест задихається. Тому замість цього я навожу приклад коду, використовуючи розподіл Лаберта Ш. Гаусса з Герґа . Я використовую тут розповсюдження, має косою близько 1355.
#hey look! I'm learning R!
library(LambertW)
Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)
test_ttest <- function(sampsize) {
samp <- LW.Gauss$rY(params)(n=sampsize)
tval <- t.test(samp, mu = moms$mean)
return(tval$p.value)
}
#to replicate randomness
set.seed(1)
pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
p vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
Цей код дає емпіричну норму відхилення на номінальному рівні 0,05 для різних розмірів вибірки. Для вибірки розміром 50 емпірична норма становить 0,40 (!); для зразка розміром 250, 0,29; для зразка розміром 1000, 0,21; для розміру зразка 2000, 0,18. Очевидно, що однопробальний тест страждає від перекосу.
Центральна гранична теорема встановлює (за необхідних умов), що чисельник t-статистики є асимптотично нормальним. T-статистика також має знаменник. Щоб мати t-розподіл, знаменник повинен бути незалежним та квадратним-коренем-а-хі-квадратом-на-його-df.
І ми знаємо, що це не буде незалежним (що характеризує нормальне!)
Теорема Слуцького в поєднанні з CLT дасть вам зрозуміти, що t-статистика є асимптотично нормальною (але не обов'язково з дуже корисною швидкістю).
Яка теорема встановила б, що t-статистика приблизно t-розподілена, коли існує ненормальність, і як швидко вона входить? (Звичайно, врешті-решт t- наблизиться до нормального, але ми припускаємо, що наближення до іншого наближення буде кращим, ніж просто використання нормального наближення ...)
Так, теорема про центральну межу говорить нам, що це правда. Поки ви уникаєте надзвичайно важких хвороб, ненормальність не представляє проблем у зразках середнього та великого розміру.
Ось корисний оглядовий документ;
http://www.an yearreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546
Тест Вілкоксона (згаданий іншими) може мати жахливу силу, коли альтернативою є не зміщення місця розташування вихідного розподілу. Крім того, спосіб вимірювання відмінностей між розподілами не є перехідним.
Про використання тесту Вілкоксона-Манна-Уітні як альтернативи я рекомендую статтю Тест Вілкоксона-Ман-Уітні під наглядом
Як випробування засобів або медіанів, тест Вілкоксона – Манна – Уітні (WMW) може бути сильно непосильним для відхилень від чистої моделі зсуву.
Такі рекомендації авторів статті:
Перетворення рангів може по-різному змінювати значення, стандартні відхилення та похилість двох зразків. Єдина ситуація, в якій трансформація рангів гарантується для досягнення сприятливого ефекту - це коли розподіли однакові, а розміри вибірки рівні. Для відхилень від цих досить суворих припущень вплив перетворення рангів на вибіркові моменти непередбачуваний. Під час імітаційного дослідження статті тест WMW порівнювали з тестом Флігнера – Полічелло (FP), тестом Бруннера – Мюнзеля (BM), двопробним тестом T (T), тестом Welch U (U), і тест Welch U на звання (RU). Чотири тести на основі ранжування (WMW, FP, BM та RU) виконували аналогічно, хоча тест на ІМ часто був трохи кращим, ніж інші. Коли розміри вибірки були рівними, параметричні тести (T і U) були вищими за рангові тести за нульовою гіпотезою рівних засобів, але не під нульовою гіпотезою рівних медіанів. Коли розміри вибірки були неоднаковими, тести BM, RU та U виявились найкращими. Для кількох налаштувань невеликі зміни властивостей популяції призвели до великих змін у виконанні тестів. Підсумовуючи, великий тестовий приблизний тест на ЗМЗ може бути поганим методом порівняння засобів або медіанів двох сукупностей, якщо два розподіли не мають однакових форм і рівних масштабів. Ця проблема також, як видається, застосовується в різних ступенях до точного тесту на WMW, FP-тесту, тесту BM та Welch U-тесту на ранги. Використовуючи тест WMW, автори рекомендують ретельно дослідити властивості ранжированих зразків на предмет ознак спотвореності та неоднорідності дисперсії.