Важко вести зухвалу філософську дискусію про речі, які мають 0 ймовірність того, що трапиться. Тож я покажу вам кілька прикладів, які стосуються вашого питання.
Якщо у вас є два величезні незалежні вибірки з одного розподілу, то обидва зразки все ще матимуть певну мінливість, об'єднана 2-вибіркова t статистика буде близькою, але не точно 0, значення P буде розподілено як
а 95% довірчий інтервал буде дуже коротким і по центру близькоUnif(0,1),0.
Приклад одного такого набору даних та t тесту:
set.seed(902)
x1 = rnorm(10^5, 100, 15)
x2 = rnorm(10^5, 100, 15)
t.test(x1, x2, var.eq=T)
Two Sample t-test
data: x1 and x2
t = -0.41372, df = 2e+05, p-value = 0.6791
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.1591659 0.1036827
sample estimates:
mean of x mean of y
99.96403 99.99177
Ось підсумовані результати з 10 000 таких ситуацій. По-перше, розподіл P-значень.
set.seed(2019)
pv = replicate(10^4,
t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$p.val)
mean(pv)
[1] 0.5007066 # aprx 1/2
hist(pv, prob=T, col="skyblue2", main="Simulated P-values")
curve(dunif(x), add=T, col="red", lwd=2, n=10001)
Далі тестова статистика:
set.seed(2019) # same seed as above, so same 10^4 datasets
st = replicate(10^4,
t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$stat)
mean(st)
[1] 0.002810332 # aprx 0
hist(st, prob=T, col="skyblue2", main="Simulated P-values")
curve(dt(x, df=2e+05), add=T, col="red", lwd=2, n=10001)
І так далі для ширини CI.
set.seed(2019)
w.ci = replicate(10^4,
diff(t.test(rnorm(10^5,100,15),
rnorm(10^5,100,15),var.eq=T)$conf.int))
mean(w.ci)
[1] 0.2629603
Практично неможливо отримати Р-значення єдності, роблячи точний тест з постійними даними, де допущення виконуються. Настільки, що мудрий статистик задумається над тим, що могло піти не так, побачивши P-значення 1.
Наприклад, ви можете надати програмі два однакових великих зразка. Програмування буде продовжуватися так, ніби це два незалежні вибірки, і дасть дивні результати. Але навіть тоді ІС не буде шириною 0.
set.seed(902)
x1 = rnorm(10^5, 100, 15)
x2 = x1
t.test(x1, x2, var.eq=T)
Two Sample t-test
data: x1 and x2
t = 0, df = 2e+05, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.1316593 0.1316593
sample estimates:
mean of x mean of y
99.96403 99.96403