Нульові гіпотези ілюструють значення "Усі моделі неправильні, але деякі корисні". Вони, мабуть, найбільш корисні, якщо не брати їх буквально та поза контекстом - тобто важливо пам’ятати епістемічну мету нуля. Якщо вона може бути фальсифікованою, що є наміченою метою, то альтернатива стає більш корисною для порівняння, хоча і все ще досить неінформативною. Якщо ви відкидаєте нуль, ви говорите, що ефект, ймовірно, не дорівнює нулю (або що завгодно - нульові гіпотези можуть визначати й інші значення для фальсифікації) ... так що це тоді?
Розрахунковий розмір ефекту - це найкраща точкова оцінка параметру сукупності. Як правило, шанси повинні бути однаково хорошими, що це завищена або недооцінена, але шанси на те, що це "мертві точки", є безмежними, як випливає з коментаря @ Glen_b. Якщо якимось химерним поворотом долі (чи будівництвом - так чи інакше, я припускаю, що ми говоримо гіпотетично?) Ваша оцінка прямо падає на0.0¯, це все ще не є великим доказом того, що параметр не є іншим значенням у довірчому інтервалі. Значення інтервалу довіри не змінюється, виходячи зі значущості будь-якого тесту гіпотези, за винятком того, наскільки це може змінити розташування та ширину відповідним чином.
Якщо ви не знайомі з тим, як виглядають оцінки розміру ефекту для зразків із (імітованої) сукупності, про яку нульова гіпотеза є буквально вірною (або у випадку, якщо ви її ще не бачили, і просто тут для невеликої статистичної розваги ), перегляньте танець Джеффа КамінгаpЦінності . У випадку, якщо ці інтервали довіри недостатньо вузькі для вашого смаку, я спробував імітувати частину власних R, використовуючи випадково згенеровані зразки, просто соромлячисьn = 1 M кожен із N( 0 , 1 ). Я забув встановити насіння, але поставив, x=c()
а потім пробіг x=append(x,replicate(500,cor(rnorm(999999),rnorm(999999))))
стільки разів, скільки мені було байдуже, перш ніж закінчити цю відповідь, що дало мені зрештою 6000 зразків. Ось гістограма та графік щільності з використанням hist(x,n=length(x)/100)
та plot(density(x))
, відповідно:
Як можна було б очікувати, є дані про різні ненульові ефекти, що виникають із цих випадкових вибірок сукупності з буквально нульовим ефектом, і ці оцінки розподіляються більш-менш нормально навколо справжнього параметра ( skew(x)
= -.005, kurtosis(x)
= 2.85). Уявіть, що ви тільки знали значення вашої оцінки з вибіркиn = 1 M, не істинний параметр: чому ви б очікували, що параметр буде ближче до нуля, ніж ваша оцінка, а не далі? Ваш інтервал довіри може містити нуль, але нуль насправді не є більш правдоподібним, ніж значення еквівалентної відстані від розміру ефекту вибірки у зворотному напрямку, і інші значення можуть бути більш правдоподібними, ніж це, особливо ваша бальна оцінка!
Якщо на практиці ви хочете продемонструвати, що ефект є більш-менш нульовим, вам потрібно визначити, наскільки більш-менш ви схильні ігнорувати. За допомогою цих величезних зразків, які я імітував, було оцінено найбільшу величину, яку я створив| r | =.004. З більш реалістичними зразкамиn = 999, найбільший серед мене 1 М зразки є | r | =.14. Знову ж таки, залишки зазвичай розподіляються, тому вони малоймовірні, але справа в тому, що вони неправдоподібні.
ІС, мабуть, корисніший для висновку, ніж NHST взагалі. Це не просто відображає, наскільки поганою є ідея припустити, що параметр є незначно малим; він являє собою гарне уявлення про те, що є параметром насправді. Ще можна вирішити, чи це це незначно, але також можна зрозуміти, наскільки це може бути незначним. Більш детальну пропаганду довірчих інтервалів див. У Cumming (2014 , 2013) .
Список літератури
- Куммінг, Г. (2013). Розуміння нової статистики: розміри ефектів, довірчі інтервали та мета-аналіз . Routledge.
- Куммінг, Г. (2014). Нова статистика: чому і як. Психологічна наука, 25 (7), 7–29. Отримано з http://pss.sagepub.com/content/25/1/7.full.pdf+html .