Чи може вузький інтервал довіри навколо незначного ефекту свідчити про нульове значення?


9

Очевидно помилковим є припущення, що невідхилення нуля означає, що нуль є істинним. Але у випадку, коли нуль не відхиляється і відповідний довірчий інтервал (CI) вузький і зосереджений навколо 0, чи це не дає свідчень для нуля?

Я маю два думки: Так, на практиці це дозволило б підтвердити, що ефект є більш-менш 0. Однак, в рамках суворої перевірки гіпотез, здається, що нульові ефекти просто непридатні для висновку, як і їх відповідні ІС. Тож у чому сенс ІС, коли його бальна оцінка незначна? Чи він також непридатний для висновку чи може бути використаний, як у попередньому прикладі, для кількісного визначення доказів нуля?

Відповіді із науковими посиланнями заохочуються.


Напевно, вам буде цікаво тестування на еквівалентність та питання на сайті з детальним описом. Див. Як перевірити гіпотезу про відсутність групових відмінностей? для одного прикладу.
Andy W

1
Якщо ви маєте на увазі докази, що є недійсними проти альтернативи будь-якому іншому ... тоді, ні. Незліченна нескінченна кількість альтернатив між спостережуваним дуже малим значенням і нулем все ще буде більш імовірною, ніж нульовою. Якщо ви маєте на увазі щось інше, то, можливо, за деяких обставин.
Glen_b -Встановити Моніку

Так, тоді це було б рівнозначним тестуванням, терміном, про який я ще не чув.
ATJ

Відповіді:


6

Якщо коротко: так.

Як писав Енді У, висновок про те, що параметр дорівнює заданому значенню (у вашому випадку розмір ефекту дорівнює нулю), є питанням тестування на еквівалентність.

У вашому випадку цей вузький довірчий інтервал насправді може вказувати на те, що ефект практично дорівнює нулю, а значить, нульова гіпотеза еквівалентності може бути відхилена. Значна еквівалентність при1α-рівень, як правило, показаний звичайним 12α-інтервал впевненості, який повністю лежить у заздалегідь визначеному інтервалі еквівалентності. Цей інтервал еквівалентності враховує, що ви можете нехтувати справді крихітними відхиленнями, тобто всі розміри ефектів у межах цього інтервалу еквівалентності можна вважати практично еквівалентними. (Статистичний тест на рівність неможливий.)

Будь ласка, дивіться "Тестування статистичних гіпотез еквівалентності та неперферентності" Штефана Веллека для подальшого читання, найбільш вичерпну книгу з цього питання.


2

Нульові гіпотези ілюструють значення "Усі моделі неправильні, але деякі корисні". Вони, мабуть, найбільш корисні, якщо не брати їх буквально та поза контекстом - тобто важливо пам’ятати епістемічну мету нуля. Якщо вона може бути фальсифікованою, що є наміченою метою, то альтернатива стає більш корисною для порівняння, хоча і все ще досить неінформативною. Якщо ви відкидаєте нуль, ви говорите, що ефект, ймовірно, не дорівнює нулю (або що завгодно - нульові гіпотези можуть визначати й інші значення для фальсифікації) ... так що це тоді?

Розрахунковий розмір ефекту - це найкраща точкова оцінка параметру сукупності. Як правило, шанси повинні бути однаково хорошими, що це завищена або недооцінена, але шанси на те, що це "мертві точки", є безмежними, як випливає з коментаря @ Glen_b. Якщо якимось химерним поворотом долі (чи будівництвом - так чи інакше, я припускаю, що ми говоримо гіпотетично?) Ваша оцінка прямо падає на0.0¯, це все ще не є великим доказом того, що параметр не є іншим значенням у довірчому інтервалі. Значення інтервалу довіри не змінюється, виходячи зі значущості будь-якого тесту гіпотези, за винятком того, наскільки це може змінити розташування та ширину відповідним чином.

Якщо ви не знайомі з тим, як виглядають оцінки розміру ефекту для зразків із (імітованої) сукупності, про яку нульова гіпотеза є буквально вірною (або у випадку, якщо ви її ще не бачили, і просто тут для невеликої статистичної розваги ), перегляньте танець Джеффа КамінгаpЦінності . У випадку, якщо ці інтервали довіри недостатньо вузькі для вашого смаку, я спробував імітувати частину власних R, використовуючи випадково згенеровані зразки, просто соромлячисьn=1M кожен із N(0,1). Я забув встановити насіння, але поставив, x=c()а потім пробіг x=append(x,replicate(500,cor(rnorm(999999),rnorm(999999))))стільки разів, скільки мені було байдуже, перш ніж закінчити цю відповідь, що дало мені зрештою 6000 зразків. Ось гістограма та графік щільності з використанням hist(x,n=length(x)/100)та plot(density(x)), відповідно:

    

Як можна було б очікувати, є дані про різні ненульові ефекти, що виникають із цих випадкових вибірок сукупності з буквально нульовим ефектом, і ці оцінки розподіляються більш-менш нормально навколо справжнього параметра ( skew(x)= -.005, kurtosis(x)= 2.85). Уявіть, що ви тільки знали значення вашої оцінки з вибіркиn=1M, не істинний параметр: чому ви б очікували, що параметр буде ближче до нуля, ніж ваша оцінка, а не далі? Ваш інтервал довіри може містити нуль, але нуль насправді не є більш правдоподібним, ніж значення еквівалентної відстані від розміру ефекту вибірки у зворотному напрямку, і інші значення можуть бути більш правдоподібними, ніж це, особливо ваша бальна оцінка!

Якщо на практиці ви хочете продемонструвати, що ефект є більш-менш нульовим, вам потрібно визначити, наскільки більш-менш ви схильні ігнорувати. За допомогою цих величезних зразків, які я імітував, було оцінено найбільшу величину, яку я створив|r|=.004. З більш реалістичними зразкамиn=999, найбільший серед мене 1M зразки є |r|=.14. Знову ж таки, залишки зазвичай розподіляються, тому вони малоймовірні, але справа в тому, що вони неправдоподібні.

ІС, мабуть, корисніший для висновку, ніж NHST взагалі. Це не просто відображає, наскільки поганою є ідея припустити, що параметр є незначно малим; він являє собою гарне уявлення про те, що є параметром насправді. Ще можна вирішити, чи це це незначно, але також можна зрозуміти, наскільки це може бути незначним. Більш детальну пропаганду довірчих інтервалів див. У Cumming (2014 , 2013) .

Список літератури
- Куммінг, Г. (2013). Розуміння нової статистики: розміри ефектів, довірчі інтервали та мета-аналіз . Routledge.
- Куммінг, Г. (2014). Нова статистика: чому і як. Психологічна наука, 25 (7), 7–29. Отримано з http://pss.sagepub.com/content/25/1/7.full.pdf+html .


Дякую, я дуже знайомий з роботою Каммінга. Я припускаю, що моє запитання було скоріше так: "якщо бальна оцінка ES несуттєва, то чи можна використовувати ІС для висновку? Або вони" нульові ", тобто марні як бальна оцінка)"
ATJ

1
@ATJ: Ні точкової оцінки, ні (1α) Довірчі інтервали для параметра стають "марними", коли вони не суттєво відрізняються від нуля (на рівні α) або містять нуль відповідно.
Scortchi

@ATJ: Як я вже сказав, значення [/ корисності] CI не змінюється на основі значущості будь-якого NHST. CI, ймовірно, корисніший для висновку, ніж NHST взагалі ... він являє собою гарне уявлення про те, що саме є параметром. Наприклад, я просто побіг cor.test(rnorm(9999999),rnorm(9999999))і отримав ІП{0.00063,0.00060}. Тому я роблю висновок, що коли я запускаю його знову, я на 95% ймовірно отримаю нову оцінку в межах цього діапазону. Запустивши його знову, моя оцінка булаr=0.00029; мій висновок на основі КІ був правильним! Нульова ситуація буває в будівництві, але мої докази натомість сприяють моїй оцінці ...
Nick Stauner
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.