Контекст
Це дещо схоже на це питання , але я не думаю, що це точний дублікат.
Коли ви шукаєте, як інструкції, як виконати тест гіпотези завантажувальної програми, зазвичай зазначається, що добре використовувати емпіричний розподіл для довірчих інтервалів, але що вам потрібно правильно завантажити завантаження з розподілу під нульовою гіпотезою, щоб отримати p- значення. Як приклад, див. Прийняту відповідь на це запитання . Загальний пошук в Інтернеті здебільшого, схоже, наводить подібні відповіді.
Причиною не використання р-значення, заснованого на емпіричному розподілі, є те, що більшість часу ми не маємо інваріантності перекладу.
Приклад
Дозвольте навести короткий приклад. У нас є монета, і ми хочемо зробити однобічний тест, щоб побачити, чи частота головок перевищує 0,5
Проводимо випробувань і отримуємо голів. Справжнє p-значення для цього тесту було б .
З іншого боку, якщо ми завантажуємо свої 14 з 20 голів, ми ефективно відбираємо вибір з біноміального розподілу з і . Зсуваючи цей розподіл на віднімання 0,2, ми отримаємо ледь значний результат при тестуванні нашого спостережуваного значення 0,7 проти отриманого емпіричного розподілу.
У цьому випадку розбіжність дуже мала, але вона збільшується, коли рівень успішності, яку ми перевіряємо, наближається до 1.
Питання
Тепер дозвольте мені підійти до реальної точки мого питання: той самий дефект стосується і довірчих інтервалів. Насправді, якщо довірчий інтервал має вказаний рівень довіри то довірчий інтервал, що не містить параметр під нульовою гіпотезою, еквівалентний відхиленню нульової гіпотези на рівні значущості .
Чому саме інтервали довіри, засновані на емпіричному розподілі, широко прийняті, а значення p не?
Чи є глибша причина чи люди просто не такі консервативні з інтервалами довіри?
У цій відповіді Пітер Дальгард дає відповідь, яка, здається, погоджується з моїм аргументом. Він каже:
Немає нічого особливо поганого в цьому розсуді, або, принаймні, не (набагато) гірше, ніж обчислення ІС.
Звідки походить (багато)? Це означає, що генерування р-значень таким чином дещо гірше, але не має конкретного питання.
Заключні думки
Також у Вступі до Bootstrap Ефроном та Тібширані вони присвячують багато місця інтервалам довіри, але не p-значенням, якщо вони не генеруються при правильному нульовому розподілі гіпотез, за винятком однієї лінії викиду про загальну еквівалентність довірчі інтервали та p-значення в главі про тестування перестановки.
Повернемося також до першого питання, яке я пов’язав. Я погоджуюся з відповіддю Майкла Черника, але знову ж він також стверджує, що і довірчі інтервали, і p-значення, засновані на емпіричному розподілі завантажувальної програми, однаково недостовірні в деяких сценаріях. Це не пояснює, чому ви знаходите багато людей, які говорять вам про те, що інтервали в порядку, але значення p не є.