Р-значення визначається ймовірністю отримання тестової статистики принаймні такою ж крайньою, як і те, що спостерігається, якщо вважати, що нульова гіпотеза є істинною. Іншими словами,
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5))
hist(bimodal, breaks=100)
І припустимо, ми спостерігаємо тестове статистичне значення 60. І ось ми знаємо з картини це значення дуже малоймовірне . Тому в ідеалі я б хотів стати статистичну процедуру, яку я використовую (скажімо, p-значення), щоб виявити це. Але якщо обчислити значення р, як визначено, ми отримаємо досить високе значення р
observed <- 60
# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993
Якби я не знав розподілу, я б зробив висновок, що те, що я спостерігав, - просто випадковий випадок. Але ми знаємо, що це неправда.
Я думаю, що у мене виникає питання: чому ми, обчислюючи p-значення, обчислюємо ймовірність значень "принаймні настільки ж крайні, як" спостережувані? І якщо я зіткнувся з ситуацією, подібною до тієї, яку я імітував вище, то яке альтернативне рішення?