Як правило, ви можете продовжувати вдосконалювати свою оцінку будь-якого параметра, який ви можете протестувати за допомогою більшої кількості даних. Припинення збору даних, коли тест досягає певної напіввільної ступеня значущості, є хорошим способом зробити погані умовиводи. Те, що аналітики можуть неправильно зрозуміти вагомий результат як знак того, що робота виконана, є одним із багатьох ненавмисних наслідків рамки Неймана-Пірсона, згідно з якими люди інтерпретують значення p як причини або відхиляти, або не відхиляти нуль без застереження залежно від на яку сторону критичного порогу вони падають.
Не враховуючи байєсівських альтернатив паралігмі частолістів (сподіваємось, що хтось інший зробить), інтервали довіри продовжують бути більш інформативними за межі того моменту, коли основну нульову гіпотезу можна відкинути. Якщо припустити, що збір більшої кількості даних просто зробить ваш основний тест на значущість досягти ще більшої значущості (і не виявить, що ваше попереднє знаходження значимості було помилковим позитивом), ви можете виявити це марним, оскільки ви відкинете нуль в будь-якому випадку. Однак у цьому випадку ваш довірчий інтервал навколо відповідного параметра продовжуватиме скорочуватися, покращуючи ступінь впевненості, за допомогою якого ви зможете точно описати свою зацікавлену групу.
μ = 0
One Sample t-test
data: rnorm(99)
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-0.377762241 -0.006780574
sample estimates:
mean of x
-0.1922714
t.test(rnorm(99))
α = .05rnorm
set.seed(8);t.test(rnorm(99,1))
μ = [ .69 , 1,12 ]
μ = .8 test з mu=.8
, що дає p = .33. Моє середнє значення вибірки є досить високим, щоб виглядати значущо відмінним від нуля відповідно до цього .8 поріг; збір більше даних може допомогти покращити мою впевненість, що різниця принаймні така велика, а не просто тривіально більша за нуль.
set.seed(8);t.test(rnorm(999,1),mu=.8)
μ = 0μ = .8μ = [ .90 , 1,02 ]μ = .89
Н0: μ = .9set.seed(9);t.test(rnorm(999,1),mu=.9)
Тестування прогресивніших суворіших нульових гіпотез, а ще краще - просто зосередитись на зменшенні ваших довірчих інтервалів - лише один із способів. Звичайно, більшість досліджень, які відкидають нульові гіпотези, лежать в основі інших досліджень, які ґрунтуються на альтернативній гіпотезі. Наприклад, якби я тестував альтернативну гіпотезу про те, що кореляція більша за нуль, я міг би протестувати медіаторів чи модераторів у наступному дослідженні далі… і, хоча я буду в цьому, я б точно хотів би переконатися Я міг би повторити вихідний результат.
Інший підхід, який слід врахувати, - це тестування на еквівалентність . Якщо ви хочете зробити висновок, що параметр знаходиться в певному діапазоні можливих значень, а не просто відрізняється від одного значення, ви можете вказати той діапазон значень, який ви хочете, щоб параметр лежав у відповідності з вашою звичайною альтернативною гіпотезою і протестував його проти іншого набору нульових гіпотез, які разом представляють можливість того, що параметр лежить поза цим діапазоном. Ця остання можливість може бути найбільш схожа на те, що ви мали на увазі, коли писали:
У нас є "деякі докази", щоб альтернатива була правдивою, але ми не можемо зробити такий висновок. Якщо я справді хочу зробити цей висновок остаточно ...
set.seed(8)
rnorm(99)
rnorm(99,1)-1
μ = .8- .2 ≤ μ ≤ .2
require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)
tost
μ = [ - .27 , .09 ]rnorm(999)
μ = [ - .09 , .01 ] p = 4,55E-07.
Я все ще думаю, що інтервал довіри цікавіший, ніж результат тесту на еквівалентність. Він відображає те, що дані підказують, що означає популяція, більш конкретно, ніж альтернативна гіпотеза, і припускає, що я можу бути впевненим, що вона лежить у ще меншому інтервалі, ніж я вказав в альтернативній гіпотезі. Щоб продемонструвати, я знов зловживаю своїми нереальними силами моделювання та "повторюю", використовуючи set.seed(7);tost(rnorm(999),epsilon=.09345092)
: досить впевнено, p = .002.