Нічого подібного до відповіді на справді старе питання, але ось ...
p-значення - майже достовірні тести гіпотез. Це дещо адаптований напрямок, узятий із книги теорії ймовірностей Jaynes 2003 (Повторювані експерименти: ймовірність та частота). Припустимо, у нас є нульова гіпотеза яку ми хочемо перевірити. У нас є дані і апріорної інформації . Припустимо, існує деяка не визначена гіпотеза , якої ми перевіримо . Відношення коефіцієнта задніх коефіцієнтів для проти дається: D I H A H 0 H A H 0H0DIHAH0HAH0
P(HA|DI)P(H0|DI)=P(HA|I)P(H0|I)×P(D|HAI)P(D|H0I)
Тепер перший член праворуч не залежить від даних, тому дані можуть впливати на результат лише через другий доданок. Тепер ми завжди можемо винайти альтернативну гіпотезу таку, що - гіпотеза "ідеального пристосування". Таким чином, ми можемо використовувати як міру того, наскільки добре дані можуть підтримувати будь-яку альтернативну гіпотезу щодо нуля. Не існує альтернативної гіпотези, що дані можуть підтримувати більше, ніж . Ми також можемо обмежити клас альтернатив, і зміна полягає в тому, що замінюється на максимальну ймовірність (включаючи нормалізуючі константи) в межах цього класу. ЯкщоHAP(D|HAI)=11P(D|H0I)H01P(D|H0I)1P(D|H0I)починає ставати занадто малим, тоді ми починаємо сумніватися в нульовій, тому що кількість альтернатив між і зростає (включаючи деякі з попередньою незначною). Але це дуже майже те, що робиться з p-значеннями, але, за винятком, ми не обчислюємо ймовірність для деякої статистики та якоїсь "поганої" області статистики. Ми обчислюємо ймовірність для - інформації, яку ми насправді маємо, а не якоїсь її підмножини, .H0HAt(D)>t0t(D)Dt(D)
Ще одна причина, по якій люди використовують р-значення, полягає в тому, що вони часто складають "правильний" тест гіпотез, але їх можна легше підрахувати. Ми можемо показати це на дуже простому прикладі тестування нормальної середньої з відомою дисперсією. У нас є дані з припущеною моделлю (частина попередньої інформації ). Ми хочемо перевірити . Тоді ми, після невеликого розрахунку:D≡{x1,…,xN}xi∼Normal(μ,σ2)IH0:μ=μ0
P(D|H0I)=(2πσ2)−N2exp(−N[s2+(x¯¯¯−μ0)2]2σ2)
Де і . Це показує, що максимальне значення буде досягнуто, коли . Максимальне значення:x¯¯¯=1N∑Ni=1xis2=1N∑Ni=1(xi−x¯¯¯)2P(D|H0I)μ0=x¯¯¯
P(D|HAI)=(2πσ2)−N2exp(−Ns22σ2)
Отже, ми беремо співвідношення цих двох, і отримуємо:
P(D|HAI)P(D|H0I)=(2πσ2)−N2exp(−Ns22σ2)(2πσ2)−N2exp(−Ns2+N(x¯¯¯−μ0)22σ2)=exp(z22)
Де - це "Z-статистика". Великі значенняставить під сумнів нульову гіпотезу щодо гіпотези про нормальну середню, яка найбільш сильно підтримується даними. Ми також можемо побачити, що є єдиною необхідною частиною даних, і тому є достатньою статистикою для тесту.z=N−−√x¯¯¯−μ0σ|z|x¯¯¯
Р-ціннісний підхід до цієї проблеми майже однаковий, але зворотний. Почнемо з достатньої статистики і обчислимо її розподіл вибірки, який легко показано - де я використав велику літеру, щоб відрізнити випадкову змінну від спостережуваного значення . Тепер нам потрібно знайти область, яка ставить під сумнів нульову гіпотезу: це легко видно, що це ті регіони, девеликий. Тож ми можемо обчислити ймовірність того, щоx¯¯¯X¯¯¯¯∼Normal(μ,σ2N)X¯¯¯¯x¯¯¯|X¯¯¯¯−μ0||X¯¯¯¯−μ0|≥|x¯¯¯−μ0|як міра того, наскільки далекі спостережувані дані від нульової гіпотези. Як і раніше, це простий розрахунок, і ми отримуємо:
p-value=P(|X¯¯¯¯−μ0|≥|x¯¯¯−μ0||H0)
=1−P[−N−−√|x¯¯¯−μ0|σ≤N−−√X¯¯¯¯−μ0σ≤N−−√|x¯¯¯−μ0|σ|H0]
=1−P(−|z|≤Z≤|z||H0)=2[1−Φ(|z|)]
Тепер ми можемо бачити, що р-значення є монотонною спадною функцією, це означає, що ми, по суті, отримуємо таку ж відповідь, як і тест на "правильну" гіпотезу. Відхилення, коли значення p нижче певного порогу - це те саме, що і відхилення, коли задні шанси перевищують певний поріг. Однак зауважте, що, роблячи належний тест, нам довелося визначити клас альтернатив, і нам довелося максимізувати ймовірність над цим класом. Для p-значення ми повинні знайти статистику та обчислити її розподіл вибірки та оцінити це за спостережуваним значенням. У певному сенсі вибір статистики рівнозначний визначенню альтернативної гіпотези, яку ви розглядаєте.|z|
Хоча в цьому прикладі обидві речі прості, але у складніших випадках вони не завжди такі легкі. У деяких випадках може бути простіше вибрати правильну статистику для використання та обчислити її розподіл вибірки. В інших може бути простіше визначити клас альтернативних варіантів і максимізувати його над цим класом.
Цей простий приклад пояснює велику кількість тестування, заснованого на p-значенні, просто тому, що так багато гіпотезних тестів є "приблизним нормальним" різноманіттям. Він дає приблизну відповідь і на вашу проблему монети (використовуючи звичайне наближення до двочленного). Це також показує, що значення p в цьому випадку не зведе вас з глузду, принаймні, з точки зору тестування єдиної гіпотези. У цьому випадку можна сказати, що р-значення є мірою доказів проти нульової гіпотези.
Однак р-значення мають менш інтерпретаційну шкалу, ніж коефіцієнт Байєса - зв’язок між р-значенням та "кількістю" доказів проти нуля є складним. p-значення занадто швидко стають занадто малими - це ускладнює їх правильне використання. Вони, як правило, завищують підтримку проти нуля, наданого даними. Якщо інтерпретувати значення p як вірогідність проти нуля - у формі шансів дорівнює , коли фактичні докази - , а у формі шансів - коли фактичні докази - . Або кажучи іншим способом, використовуючи значення p як імовірність того, що нуль тут помилковий, еквівалентно встановленню попередніх коефіцієнтів. Так для р-значення0.193.870.05196.830.1попередні маються на увазі попередні шанси проти нуля - а для p-значення - маються на увазі попередні шанси проти нуля - .2.330.052.78