Яка різниця між довірчими інтервалами та тестуванням гіпотез?


28

Я читав про суперечки щодо тестування гіпотез з деякими коментаторами, які припускають, що тестування гіпотез не слід використовувати. Деякі коментатори пропонують замість цього використовувати інтервали довіри .

  • Яка різниця між довірчими інтервалами та тестуванням гіпотез? Пояснення з посиланням та прикладами були б вдячні.

5
Я думаю, ви хотіли запитати, чому повідомляти результати тестування гіпотез , показуючи інтервал довіри, краще, ніж просто сказати, що щось підтверджено або відхилено на якомусь рівні p-значення.

3
Ви можете розглянути питання про відповіді на деякі інші питання.
Andy W

Відповіді:


19

Для тестування гіпотез можна використовувати інтервал довіри (CI). У типовому випадку, якщо CI для ефекту не охоплює 0, то ви можете відхилити нульову гіпотезу. Але CI можна використовувати для більшого, тоді як повідомлення про те, чи було пройдено це межа корисності тесту.

Наприклад, вам рекомендують використовувати CI замість просто t-тесту, тому що тоді ви можете зробити більше, ніж просто перевірити гіпотези. Ви можете зробити заяву про спектр ефектів, які, на вашу думку, є ймовірними (такі, що стосуються ІС). Ви не можете зробити це лише за допомогою t-тесту. Ви також можете використовувати його для створення заяв про нуль, чого ви не можете зробити з t-тестом. Якщо t-тест не відхиляє нуль, ви просто скажете, що не можете відхилити нуль, що не говорить дуже багато. Але якщо у вас є вузький інтервал довіри навколо нуля, то ви можете припустити, що нуль або близьке до нього значення, ймовірно, є справжнім значенням, і припустити, що ефект від лікування або незалежна змінна є занадто малим, щоб мати значення ( або що ваш експеримент не відповідає "

Додано пізніше: Я дійсно повинен був сказати, що, хоча ви можете використовувати CI як тест, він не один. Це оцінка діапазону, в якому, на вашу думку, лежать значення параметра. Ви можете зробити тест, як умовиводи, але вам просто набагато краще ніколи про це не говорити.

Який краще?

А) Ефект дорівнює 0,6, t (29) = 2,8, p <0,05. Цей статистично значущий ефект є ... (деяка дискусія ведеться про цю статистичну значущість без жодної згадки або навіть сильної здатності обговорювати практичні наслідки масштабу знахідки ... у рамках Неймана-Пірсона величина t і Значення p майже безглузді, і все, що ви можете обговорити, - чи є ефект чи не знайдений. Ви ніколи не можете реально говорити про те, що насправді це не ефект, заснований на тесті.)

або

Б) Використовуючи довірчий інтервал 95%, я оцінюю ефект між 0,2 та 1,0. (деяка дискусія продовжує говорити про фактичний ефект, що цікавить, чи правдоподібні значення - це ті, які мають якесь особливе значення, і будь-яке використання слова, яке має значення саме для того, що воно повинно означати. ​​Крім того, ширина CI може переходити безпосередньо до обговорення того, чи є це вагомим висновком, чи ви можете лише дійти більш попереднього висновку)

Якщо ви взяли базовий клас статистики, ви можете спочатку тяжіти до А. І можуть бути деякі випадки, коли це кращий спосіб повідомити про результат. Але для більшості робіт B набагато вищий. Оцінка діапазону не є тестом.


Одне доповнення до коментарів @john: По-перше, іноді ключовим питанням є те, чи інтервал ІС охоплює 1, а не 0 (наприклад, логістична регресія).
Пітер Флом - Відновити Моніку

Хлопці, це 1 або це 0? (Це здається мені дуже освітлюючим, тому я думаю, мені потрібно навчитися правильного значення, на що слідкувати!) @John
Adhesh Josh

Який взаємозв'язок між 95% ДІ та двосхилою гіпотезою тестування з альфа = 0,05? вони однакові? Якщо ні, то як?
love-stats

Любовна статистика, при використанні однакових вони однакові.
Іван

Аджеш Джош, нульовою гіпотезою може бути будь-яке фіксоване значення заздалегідь. Це ще одна особливість CI над прямим NHST. Це дуже просто у використанні, коли ви хочете перевірити гіпотетичне значення, відмінне від 0.
Іван

7

x1,x2,,xnμN(μ,1)μ=mH0:μ=m0.05.v=(x1+x2++xn)/nA(m)vA(m)vμ=mN(m,1)μmvA(m)mv0μ=0

vμmμ=m0.05.mμ=m0.0210.98


Будь ласка, прочитайте це, оскільки значення p не може бути інтерпретоване як найменший рівень тесту для відхилення нуля. "Вже показано, що інтерпретувати значення p в одиночних (або триваючих) експериментах не дозволяється в контексті тестування гіпотези Неймана-Пірсона. Обчислення значення ap залежить тільки від істинності нульової гіпотези. Значення p не визначає кількість доказів, що підтверджують НА; це міра спонукальних доказів проти Н0 ". 'Джерело: ftp.stat.duke.edu/WorkingPapers/03-26.pdf
sree22

@ sree22 Ви можете розширити цю проблему чи запропонувати переформулювати слово? Я намагався дати визначення р-значення в цьому контексті, а не інтерпретації.
DavidR

3

"Студент" аргументував інтервали довіри на тій підставі, що вони могли показати, які ефекти є більш важливими, а які - більш значущими.

Наприклад, якщо ви знайшли два ефекти, коли перший мав довірчий інтервал для його фінансового впливу від 5 до 6 фунтів, а другий мав довірчий інтервал від 200 до 2800 фунтів. Перший є статистично важливішим, але другий, мабуть, важливіший.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.