Розуміння p-значення


33

Я знаю, що є багато матеріалів, що пояснюють значення p. Однак концепцію нелегко зрозуміти без додаткових роз'яснень.

Ось визначення p-значення з Вікіпедії:

Значення р - це ймовірність отримання тестової статистики як мінімум настільки ж екстремальної, як та, яка насправді спостерігалася, припускаючи, що нульова гіпотеза є істинною. ( http://en.wikipedia.org/wiki/P-value )

хв[П(Х<х),П(х<Х)], якщо PDF статистики неоднорідний, де - тестова статистика, а - її значення, отримане в результаті спостереження. Чи це правильно? Якщо це правильно, чи все-таки застосовано використання бімодального PDF статистики? Якщо два піки PDF добре розділені і спостережуване значення знаходиться десь в області низької щільності ймовірності між двома піками, на якому інтервалі p-значення дає ймовірність?хХх

Друге питання про інше визначенні р-значення від Wolfram MathWorld:

Ймовірність того, що змінна прийме значення, яке більше, або дорівнює спостережуваному, цілком випадково ( http://mathworld.wolfram.com/P-Value.html )

Я зрозумів, що словосполучення "строго випадково" слід тлумачити як "припущення до нульової гіпотези". Це так?

Третє питання стосується використання «нульової гіпотези». Припустимо, що хтось хоче наполягати на тому, щоб монета була справедливою. Він висловлює гіпотезу, що відносна частота головок становить 0,5. Тоді нульовою гіпотезою є "відносна частота головок не 0,5". У цьому випадку, хоча обчислити р-значення нульової гіпотези складно, обчислення для альтернативної гіпотези є простим. Звичайно, проблему можна вирішити, замінивши роль двох гіпотез. Моє запитання полягає в тому, що відхилення або прийняття, засноване безпосередньо на p-значенні вихідної альтернативної гіпотези (без введення нульової гіпотези) - це добре чи ні. Якщо це не так, що зазвичай вирішує подібні труднощі при обчисленні p-значення нульової гіпотези?




Я розмістив нове запитання, яке є більш уточненим на основі обговорення в цій темі.




14
Ви виявили тонкощі, які часто не визнаються: "більш екстремальне" потрібно вимірювати з точки зору відносної вірогідності альтернативної гіпотези, а не в явному (але не в цілому правильному) розумінні того, щоб бути далі в хвості нульової вибірки розповсюдження. Це явно в формулюванні леми Неймана-Пірсона , яка використовується для обгрунтування багатьох тестів гіпотез і для визначення їх критичних областей (і звідси їх p-значень). Продумати це допоможе відповісти на ваше перше запитання.
whuber

1
Як я пам’ятаю, лема Неймана-Пірсона оптимальна для простих та простих тестів на гіпотези (Ho: mu = mu_0, Ha: mu = mu_a). Для складених тестів (Ho: mu = mu_0, Ha: mu> mu_a) існує альтернативний тест.
RobertF

Відповіді:


17

Перша відповідь

Ви повинні думати над поняттям екстремального з точки зору ймовірності статистики тесту, а не з точки зору його значення чи значення випадкової величини, що тестується. Я повідомляю про наступний приклад від Christensen, R. (2005). Тестування Фішера, Неймана, Пірсона та Байєса . Американський статистик , 59 (2), 121–126

(r|θ=0r|1234p(r|θ=0)|0.9800.0050.0050.010pvalue|1.00.010.010,02

Тут - спостереження, другий рядок - це ймовірність дотримати задане спостереження під нульовою гіпотезою θ = 0 , що тут використовується як статистика тестів, третій рядок - значення p . Ми знаходимося тут в рамках тесту Фішера: є одна гіпотеза ( H 0 , в даному випадку θ = 0 ), за якою ми хочемо дізнатися, чи є дані дивними чи ні. Спостереження з найменшою ймовірністю - 2 і 3 з 0,5% кожного. Якщо ви отримаєте 2, наприклад, ймовірність спостерігати щось як імовірне або менш вірогідне ( r = 2 і r = 3rθ=0pH0θ=0r=2r=3) становить 1%. Спостереження не сприяє рr=4p значення, хоча це ще далі (якщо відношення порядку існує), так як він має більш високу ймовірність бути спостерігається.

Це визначення працює загалом, оскільки вміщує як категоричні, так і багатовимірні змінні, де відношення порядку не визначене. У випадку кількісної змінної ingle, де ви спостерігаєте деякі ухили від найбільш ймовірного результату, може бути доцільним обчислити єдиний хвостовий p значення і врахувати лише спостереження, що знаходяться на одній стороні розподілу тестової статистики.

Друга відповідь

Я повністю не згоден з цим визначенням від Mathworld.

Третя відповідь

Треба сказати, що я не зовсім впевнений, що зрозумів ваше запитання, але спробую дати кілька спостережень, які можуть вам допомогти.

У найпростішому контексті рибного тестування, де у вас є лише нулева гіпотеза, це має бути статус-кво . Це тому, що фішерське тестування працює по суті протиріччям. Тож у випадку з монетою, якщо у вас немає причин думати інакше, ви вважаєте, що це справедливо, . Потім обчислити р значення для ваших даних при H 0 і, якщо р значення нижче заданого порогового значення, то відкинути гіпотезу (доказ від протилежного). Ви ніколи не обчислюєте ймовірність нульової гіпотези.H0:θ=0.5pH0p

За допомогою тестів Неймана-Пірсона ви вказуєте дві альтернативні гіпотези і, виходячи з їх відносної вірогідності та розмірності векторів параметрів, ви надаєте перевагу тому чи іншому. Це можна побачити, наприклад, при тестуванні гіпотези щодо упередженої та неупередженої монети. Неупереджений означає фіксацію параметра до (розмірність цього простору параметрів дорівнює нулю), тоді як зміщеним може бути будь-яке значення θ 0,5 (розмірність, рівна одиниці). Це вирішує проблему спроби суперечити гіпотезі про упередженість, що було б неможливо, як пояснив інший користувач. Фішер та НП дають подібні результати, коли вибірка велика, але вони не є рівнозначними. Тут нижче простий код у R для упередженої монети.θ=0.5θ0.5

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher

2
+1 за вказівку чудової статті, про яку я не знав. (Також для дуже потрібного скептицизму щодо корисності погляду статистики Mathworld).
кон'югатпріор

Велике спасибі! Отже, значення p - \ int_ {x: f (x) <= k} f, де f - PDF тестової статистики, а k - спостережуване значення статистики. Ще раз дякую вам.
JDL

Щодо третьої відповіді, те, що доведено у вашій відповіді, - це несправедливість монети, оскільки припущення про справедливість відхилено. Навпаки, щоб довести справедливість монети протиріччям, я повинен припустити несправедливість \ theta \ neq 0,5 і обчислити p-значення моїх даних. Як я можу це зробити? Моя думка - це складність, що виникає зі знаку \ neq припущення про несправедливість. Чи потрібно вводити якийсь рівень толерантності для справедливості, скажімо, 0,4 <\ theta <0,6, і обчислювати p-значення з точки зору \ theta та інтегрувати його через 0 <\ theta <0,4 та 0,6 <\ theta <1?
JDL

Ще одне питання. Це посилання пояснює "однобічне" p-значення. У ній сказано, що однобічна р-величина відповідає на такі питання, як "нульова гіпотеза, що дві популяції дійсно є однаковими ... який шанс, що випадково відібрані вибірки матимуть засоби настільки ж далеко (або далі), що спостерігаються в цьому експерименті з вказана група має більше значення? " Чи доцільно використовувати однобічне p-значення? Я думаю, що сама нульова гіпотеза повинна бути виражена як нерівність у цьому випадку (замість рівності та однобічного тесту).
JDL

1
@Zag, я не згоден з цією відповіддю: вам не потрібно думати про поняття екстремального з точки зору ймовірності. Краще сказати, що в цьому прикладі ймовірність під нулем використовується як тестова статистика - але це не є обов’язковим. Наприклад, якщо коефіцієнт ймовірності, як згадує whuber, використовується як тестова статистика, він взагалі не може ставити можливі вибірки в тому ж порядку, що ймовірність буде під нулем. Інші статистичні дані вибираються для максимальної потужності проти заданої альтернативи, або всіх альтернативних варіантів, або для високої потужності проти нечітко визначеного набору.
Scortchi

8

tTPr(Tt)H0Пr(|Z||z|) but it's convenient to use 2min[Pr(Zz),Pr(Zz)] because we have the appropriate tables. (Note the doubling.)

There's no requirement for the test statistic to put the samples in order of their probability under the null hypothesis. There are situations (like Zag's example) where any other way would seem perverse (without more information about what r measures, what kinds of discrepancies with H0 are of most interest, &c.), but often other criteria are used. So you could have a bimodal PDF for the test statistic & still test H0 using the formula above.

(2) Yes, they mean under H0.

(3) A null hypothesis like "The frequency of heads is not 0.5" is no use because you would never be able to reject it. It's a composite null including "the frequency of heads is 0.49999999", or as close as you like. Whether you think beforehand the coin's fair or not, you pick a useful null hypothesis that bears on the problem. Perhaps more useful after the experiment is to calculate a confidence interval for the frequency of heads that shows you either it's clearly not a fair coin, or it's close enough to fair, or you need to do more trials to find out.

An illustration for (1):

Suppose you're testing the fairness of a coin with 10 tosses. There are 210 possible results. Here are three of them:

HHHHHHHHHHHTHTHTHTHTHHTHHHTTTH

You'll probably agree with me that the first two look a bit suspicious. Yet the probabilities under the null are equal:

Pr(HHHHHHHHHH)=11024Pr(HTHTHTHTHT)=11024Pr(HHTHHHTTTH)=11024

To get anywhere you need to consider what types of alternative to the null you want to test. If you're prepared to assume independence of each toss under both null & alternative (& in real situations this often means working very hard to ensure experimental trials are independent), you can use the total count of heads as a test statistic without losing information. (Partitioning the sample space in this way is another important job that statistics do.)

So you have a count between 0 and 10

t<-c(0:10)

Its distribution under the null is

p.null<-dbinom(t,10,0.5)

Under the version of the alternative that best fits the data, if you see (say) 3 out of 10 heads the probability of heads is 310, so

p.alt<-dbinom(t,10,t/10)

Take the ratio of the probability under the null to the probability under the alternative (called the likelihood ratio):

lr<-p.alt/p.null

Compare with

plot(log(lr),p.null)

So for this null, the two statistics order samples the same way. If you repeat with a null of 0.85 (i.e. testing that the long-run frequency of heads is 85%), they don't.

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

lrt gof test

To see why

plot(t,p.alt)

Some values of t are less probable under the alternative, & the likelihood ratio test statistic takes this into account. NB this test statistic will not be extreme for

HTHTHTHTHT

And that's fine - every sample can be considered extreme from some point of view. You choose the test statistic according to what kind of discrepancy to the null you want to be able to detect.

... Continuing this train of thought, you can define a statistic that partitions the sample space differently to test the same null against the alternative that one coin toss influences the next one. Call the number of runs r, so that

HHTHHHTTTH

has r=6:

HH T HHH TTT H

The suspicious sequence

HTHTHTHTHT

has r=10. So does

THTHTHTHTH

while at the other extreme

HHHHHHHHHHTTTTTTTTTT

have r=1. Using probability under the null as the test statistic (the way you like) you can say that the p-value of the sample

HTHTHTHTHT

is therefore 41024=1256. What's worthy of note, comparing this test to the previous, is that even if you stick strictly to the ordering given by probability under the null, the way in which you define your test statistic to partition the sample space is dependent on consideration of alternatives.


You say that the definition Pr(T \ge t; H_0) can be applicable to any multimodal (of course, including bimodal) PDF of a test statistic. Then, you and Zag give different p-values for multimodal PDF of a test statistic. IMHO, Zag's definition is more resonable because the role of p-value is to quantify how likely (or weird) the observation is under the null hypothesis, as he pointed. What is your rationale for the definition Pr(T \ge t; H_0) ?
JDL

@JDL, that just is the definition of a p-value. The question then becomes how to find a 'good' test statistic (& how to define 'good'). Sometimes the probability under the null (or any function of the data that gives the same ordering) is used as the test statistic. Sometimes there are good reasons to choose others, which fill up a lot of space in books on theoretical statistics. I think it's fair to say they involve explicit or implicit consideration of alternatives. ...
Scortchi - Reinstate Monica

@JDL, ... And if a particular observation has low probability under both null & alternative it seems reasonable not to regard it as extreme.
Scortchi - Reinstate Monica

Thank you for your answers, @Scortchi. I posted a new question and have seen your comments just now after the posting. Anyway, I'm still not clear about the definition. Thank you again for your kindly answers.
JDL

I added an illustration
Scortchi - Reinstate Monica
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.