Чи відхиляє гіпотезу, використовуючи р-значення, еквівалентне гіпотезі, що не належить до довірчого інтервалу?


29

Офіційно виводячи довірчий інтервал оцінки, я закінчив формулу, яка дуже нагадує спосіб обчислення -значення.p

Таким чином, питання: чи формально вони рівноцінні? Тобто відхиляє гіпотези з критичним значенням еквівалентним не належить довірчому інтервалу з критичним значенням ?H0=0α0α


2
@f coppens: так, якщо використовуються два тести з різною статистикою, ви отримуєте два різні інтервали довіри. Але я думаю, що ОП виявив основний факт: і довірчий інтервал, і р-значення отримуються з розподілу однієї статистики, тому обидва вони можуть бути використані для вирішення питання про відхилення нульової гіпотези чи ні.
StijnDeVuyst

1
@StijnDeVuyst: Інтервал Clopper / Pearon для пропорції та інтервал Стерна для пропорції отримані з розподілу біномів з однаковим розміром (p невідомо, оскільки вони знаходять довірчий інтервал для p). Різниця між Клопером / Пірсоном та Стерном обумовлена ​​асиметрією біноміальної щільності. Інтервал Стерна намагається мінімізувати ширину інтервалу, а Clopper_pearson намагається зберегти симетрію (але через косості двочлена це можна знайти лише приблизно).

6
Не взагалі ні. Розглянемо випадки, коли ширина інтервалу є функцією оціненого значення параметра, тоді як для тесту ширина інтервалу є функцією гіпотезованої. Очевидним прикладом може бути тестування біноміального p. Давайте скористаємося нормальним ок. для простоти (хоча форма аргументу на цьому не покладається). Розглянемо n = 10, а нуль p = 0,5. Уявіть, як спостерігають 2 голови; нуль не відхиляється (тому що "2" знаходиться в інтервалі 95% приблизно 0,5), але ІС для p не включає 0,5 (тому що CI вужчий за ширину інтервалу під нулем.
Glen_b -Встановити Моніку

4
Або якщо вам потрібно, щоб він був досить великим, щоб нормальний ок був хорошим, спробуйте 469 голів на 1000 кидок, для H0 p = 0,5; знову ж таки 95% ІС для р не включає 0,5, але 5% тест не відкидає, оскільки відповідна ширина інтервалу під H0 ширша, ніж під альтернативою (з чого ви робите CI).
Glen_b -Встановіть Моніку

4
@Glen_b: Схоже, це нове запитання stats.stackexchange.com/questions/173005 дає приклад саме тієї ситуації, яку ви тут описували.
амеба каже: Відновити Моніку

Відповіді:


32

Так і ні.

Спочатку "так"

Що ви спостерігали, це те, що коли тест та довірчий інтервал базуються на одній статистиці, між ними існує еквівалентність: ми можемо інтерпретувати -значення як найменше значення для якого нульове значення параметра буде включено в інтервал довіри .pα1α

Нехай - невідомий параметр у просторі параметрів , і нехай зразок - реалізація випадкової величини . Для простоти визначте довірчий інтервал як випадковий інтервал, такий, що його ймовірність покриття (Ви також можете розглянути більш загальні інтервали, де ймовірність покриття або обмежена або приблизно дорівнює . Міркування аналогічні.)θΘRx=(x1,,xn)XnRnX=(X1,,Xn)Iα(X)

Pθ(θIα(X))=1αfor all α(0,1).
1α

Розглянемо двосторонній тест точково-нульової гіпотези проти альтернативи . Нехай позначає p-значення тесту. Для будь-якого , відхиляється на рівні , якщо . Область відхилення - це набір які призводять до відхилення : H0(θ0):θ=θ0H1(θ0):θθ0λ(θ0,x)α(0,1)H0(θ0)αλ(θ0,x)αα xH0(θ0)

Rα(θ0)={xRn:λ(θ0,x)α}.

Тепер розглянемо сімейство двосторонніх тестів із р-значеннями для . Для такої родини ми можемо визначити перевернуту область відхиленняλ(θ,x)θΘ

Qα(x)={θΘ:λ(θ,x)α}.

Для будь-якого виправленого , відхиляється, якщо , що відбувається тоді і лише тоді, коли , тобто Якщо тест базується на тестовій статистиці з повністю заданим абсолютно безперервним нульовим розподілом, то під . Тоді Оскільки це рівняння справедливо для будь-якогоθ0H0(θ0)xRα(θ0)θ0Qα(x)

xRα(θ0)θ0Qα(x).
λ(θ0,X)U(0,1)H0(θ0)
Pθ0(XRα(θ0))=Pθ0(λ(θ0,X)α)=α.
θ0Θа оскільки з рівняння вище випливає, що звідси випливає, що випадковий набір завжди охоплює істинний параметр з вірогідністю . Отже, позначає доповнення , для всіх маємо означає, що доповнення перевернутої області відхилення є довірчим інтервалом для .
Pθ0(XRα(θ0))=Pθ0(θ0Qα(X)),
Qα(x)θ0αQαC(x)Qα(x)θ0Θ
Pθ0(θ0QαC(X))=1α,
1αθ

Ілюстрація наведена нижче, показуючи області відхилення та довірчі інтервали, що відповідають -тесту для нормальної середньої величини, для різних нульових засобів та різних засобів вибірки , з . відхиляється, якщо знаходиться в затіненій світло-сірій області. Темно-сірим кольором показано область відхилення та довірчий інтервал . zθx¯σ=1H0(θ)(x¯,θ)R0.05(0.9)=(,1.52)(0.281,)I0.05(1/2)=Q0.05C(1/2)=(0.120,1.120)введіть тут опис зображення

(Значна частина цього взята з моєї кандидатської дисертації .)

Тепер для "ні"

Вище я описав стандартний спосіб побудови довірчих інтервалів. У цьому підході ми використовуємо деяку статистику, пов'язану з невідомим параметром для побудови інтервалу. Є також інтервали на основі алгоритмів мінімізації, які прагнуть звести до мінімуму довжину інтервалу стану від величини . Зазвичай такі інтервали не відповідають тесту.θX

Це явище пов'язане з проблемами, пов'язаними з тим, що такі інтервали не вкладаються, тобто інтервал 94% може бути коротшим, ніж інтервал 95%. Докладніше про це дивіться в Розділі 2.5 цієї останньої шахти (з’являється в Бернуллі).

І друге "ні"

У деяких проблемах стандартний довірчий інтервал не базується на тій же статистиці, що і стандартний тест (про який розповів Майкл Фей у цій роботі ). У цих випадках інтервали довіри та тести можуть не дати однакових результатів. Наприклад, може бути відхилено тестом, навіть якщо 0 включено в довірчий інтервал. Це не суперечить вище "так", оскільки використовуються різні статистичні дані.θ0=0

І іноді "так" - це не дуже добре

Як зазначає f coppens у коментарі, іноді інтервали та тести мають дещо суперечливі цілі. Ми хочемо короткі інтервали та випробування з високою потужністю, але найкоротший інтервал не завжди відповідає тесту з найбільшою потужністю. Деякі приклади цього див. У цій роботі (багатоваріантне нормальне розподіл), або в цьому (експоненціальне розподіл), або у розділі 4 моєї тези .

Баєси можуть також сказати і так, і ні

Деякі роки тому я розмістив тут питання про те, чи існує еквівалентність тесту-інтервалу також у байєсівській статистиці. Коротка відповідь полягає в тому, що, використовуючи стандартне тестування гіпотез Баєса, відповідь - «ні». Трохи переформулюючи проблему тестування, відповідь може бути "так". (Мої спроби відповісти на моє власне питання врешті-решт перетворилися на статтю !)


2
Хороша відповідь (+1) і (ви частково це робите), можливо, було б добре вказати на той факт, що іноді інтервали довіри та тести гіпотез мають (потенційно) суперечливі цілі: потрібно намагатися знайти інтервал довіри "якомога меншим", хоча для тестування гіпотез намагається знайти критичну область "якомога потужнішою".

@fcoppens: Дякую за пропозицію! Я оновив свою відповідь деякими рядками з цього приводу.
MånsT

Дисертація NIce! Чи працювали ви також на інтервалі Стерна?

@fcoppens: Так, я виконав деяку роботу інтервалу Стерна, головним чином у цій роботі
MånsT

7
@amoeba: Власне, я думаю, що його "ні" - це моє друге "ні". Наскільки я можу сказати, він засновує інтервал довіри на статистиці і тесті на статистиці . Зверніть увагу на різницю в знаменнику. Ви можете побудувати тести та інтервали, використовуючи будь-яку статистику, і поки ви використовуєте однакову статистику для обох, не буде розбіжностей. T1=(p^p)/p^(1p^)/nT2=(p^p)/p(1p)/n
MånsT

2

Переглядаючи один параметр, можливо, тест на значення параметра та довірчий інтервал "невідповідність" залежно від способу їх побудови. Зокрема, тест гіпотези є рівнем тесту , якщо він відкидає нульову гіпотезу пропорцію часу, коли нульова гіпотеза є істинною. З цієї причини, наприклад, можна використовувати оцінки параметрів моделі (наприклад, дисперсії), які дійсні лише під нульовою гіпотезою. Якщо потім спробувати побудувати ІП, перевернувши цей тест, покриття може бути не зовсім правильним в альтернативній гіпотезі. З цієї причини, як правило, можна побудувати інтервал довіри по-різному, щоб покриття також було правильним за альтернативою, що може призвести до (як правило, дуже невеликого) невідповідності.αα

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.