Варто чітко визначити мету вашого сюжету. Загалом, є два різних цілі: ви можете зробити сюжети для себе, щоб оцінити припущення, які ви робите, та керувати процесом аналізу даних, або ви можете зробити сюжети, щоб повідомляти результат іншим. Це не те саме; Наприклад, багато глядачів / читачів вашого сюжету / аналізу можуть бути статистично незафіксованими і можуть не бути знайомі з ідеєю, скажімо, про рівну дисперсію та її роль у t-тесті. Ви хочете, щоб ваш сюжет передав важливу інформацію про ваші дані навіть споживачам, як вони. Вони неявно довіряють, що ви все зробили правильно. З вашого питання про налаштування питань, я розумію, ви після останнього типу.
Реально, найпоширеніший і прийнятий сюжет для передачі результатів t-тесту 1 іншим (відміняйте, чи він насправді є найбільш підходящим) - це діаграму засобів із стандартними смужками помилок. Це дуже добре відповідає t-тесту, оскільки t-тест порівнює два засоби, використовуючи стандартні помилки. Якщо у вас є дві незалежні групи, це дасть інтуїтивну картину, навіть для статистично незафіксованих, і люди, які бажають отримати дані, можуть "негайно побачити, що вони, ймовірно, з двох різних груп населення". Ось простий приклад використання даних @ Тіма:
nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se = c(sd(nonsmokers)/sqrt(length(nonsmokers)),
sd(smokers)/sqrt(length(smokers)))
windows()
bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
box()
arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)
Однак, фахівці з візуалізації даних зазвичай нехтують цими сюжетами. Вони часто висміюються як "динамітні сюжети" (пор. Чому динамітні сюжети погані ). Зокрема, якщо у вас є лише кілька даних, часто рекомендується просто показати самі дані . Якщо точки перекриваються, ви можете потріскати їх по горизонталі (додайте невелику кількість випадкового шуму), щоб вони більше не перетиналися. Оскільки t-тест в основному стосується засобів та стандартних помилок, найкраще накладати засоби та стандартні помилки на такий сюжет. Ось інша версія:
set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE,
xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)
Якщо у вас багато даних, боксерти можуть бути кращим вибором для швидкого огляду дистрибутивів, і ви також можете накласти на них засоби та SE.
data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see
Прості сюжети даних та скриньки даних досить прості, що більшість людей зможе зрозуміти їх, навіть якщо вони не дуже статистично знають. Майте на увазі, що жодне з них не дозволяє легко оцінити обгрунтованість використання тесту для порівняння ваших груп. Ці цілі найкраще відповідають різним видам сюжетів.
1. Зауважте, що це обговорення передбачає незалежний зразок t-тесту. Ці сюжети можна використовувати із залежним t-тестом зразків, але в цьому контексті також можуть вводити в оману (пор., Чи неправильно використовувати рядки помилок для засобів у дослідженні в рамках суб'єктів? ).