Чому р-значення розподіляються рівномірно під нульовою гіпотезою?


115

Нещодавно я знайшов у праці Кламмера та ін. твердження, що р-значення повинні розподілятися рівномірно. Я вірю авторам, але не можу зрозуміти, чому це так.

Кламер, А.А., Парк, CY та Стаффорд Ноубл, США (2009) Статистична калібрування функції SEQUEST XCorr . Журнал Proteome Research . 8 (4): 2106–2113.


24
Це безпосередньо пов'язане з визначенням p-значення як інтегральної ймовірності перетворення тестової статистики з використанням розподілу за нульовою гіпотезою. Висновок вимагає, щоб розподіл був безперервним. Коли розподіл дискретний (або має атоми), розподіл p-значень теж дискретний, і тому може бути приблизно приблизно однаковим.
whuber

1
@whuber дав відповідь, у чому я підозрював щось. Я попросив оригінальну довідку просто переконатися, що щось не було втрачено в перекладі. Зазвичай не має значення, конкретна стаття чи ні, статистичний вміст завжди відображається через :)
mpiktas

10
Тільки тоді, коли справжнійH0 ! ... і точніше, лише тоді, коли безперервно (хоча щось подібне є правдою в неперервному випадку; я не знаю правильного слова для самого загального випадку; це не однаковість). Тоді це випливає з визначення р-значення.
Glen_b

2
Це можна розглядати як варіант основного принципу статистичної механіки (що студенти часто мають подібні труднощі з прийняттям), що всі мікро-стани фізичної системи мають рівну ймовірність.
DWin

5
Як щодо претензії в цій статті: plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0076010 ?

Відповіді:


83

Щоб трохи уточнити. Р-значення розподіляється рівномірно, коли нульова гіпотеза є істинною та виконуються всі інші припущення. Причиною цього є насправді визначення альфа як ймовірності помилки I типу. Ми хочемо, щоб ймовірність відхилення справжньої нульової гіпотези була альфа, ми відкидаємо, коли спостерігається , єдиний спосіб, коли це відбувається для будь-якого значення альфа, коли значення р походить від рівномірного розповсюдження. Вся суть використання правильного розподілу (нормального, t, f, чіска тощо) полягає в перетворенні з тестової статистики в рівномірне p-значення. Якщо нульова гіпотеза помилкова, то розподіл p-значення (сподіваємось) буде більш зваженим у напрямку 0.p-value<α

Pvalue.norm.simІ Pvalue.binom.simфункції у TeachingDemos пакет для R буде імітувати кілька наборів даних, обчислити р-значення і побудувати їх , щоб продемонструвати цю ідею.

Також дивіться:

Мердок, D, Цай, Y та Адкок, Дж. (2008). P-значення - випадкові змінні. Американський статистик , 62 , 242-245.

детальніше.

Редагувати:

Оскільки люди все ще читають цю відповідь та коментують, я подумав, що звернусь до коментаря @ whuber.

Це правда, що при використанні складеної нульової гіпотези на зразок що р-значення будуть розподілені рівномірно лише тоді, коли 2 засоби точно рівні, і не будуть рівномірними, якщо - будь-яке значення, менше ніж . Це можна легко побачити за допомогою функції та встановити її для проведення одностороннього тесту та моделювання за допомогою симуляції та гіпотезованих засобів, що відрізняються (але у напрямку, щоб зробити нуль справжнім).μ 1 μ 2μ1μ2μ1μ2Pvalue.norm.sim

Що стосується статистичної теорії, це не має значення. Подумайте, якби я стверджував, що я вищий за кожного члена вашої родини, одним із способів перевірити це твердження було б порівняння мого зросту з ростом кожного члена вашої родини один за одним. Іншим варіантом було б знайти члена вашої родини, який є найвищим, і порівняти їх зріст з моїм. Якщо я вище, ніж одна людина, то я і вище за решту, і моє твердження є правдивим, якщо я не вище, ніж одна людина, то моя вимога помилкова. Тестування складеного нуля можна розглядати як подібний процес, а не тестування всіх можливих комбінацій, де ми можемо перевірити лише частину рівності, тому що якщо ми можемо відхилити це на користьμ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1 μ 2 αμ1μ2μ1=μ2μ1>μ2тоді ми знаємо, що можемо також відхилити всі можливості . Якщо ми подивимось на розподіл p-значень у випадках, коли то розподіл не буде ідеально рівномірним, але матиме більше значень ближче до 1, ніж до 0, тобто ймовірність помилки I типу буде меншою, ніж вибране значення робить його консервативним тестом. Уніформа стає обмежуючим розподілом, оскільки наближається доμ1<μ2μ1<μ2αμ1μ2(люди, які є більш актуальними в умовах теорії статистики, напевно, могли б констатувати це краще з точки зору розподілу супрему чи чогось подібного). Таким чином, будуючи наш тест, припускаючи рівну частину нуля навіть тоді, коли нуль є складовою, тоді ми проектуємо наш тест, щоб мати ймовірність помилки I типу, що становить максимум для будь-яких умов, коли нуль справжній.α


Вибачте за введений я друкарський помилок (слід прочитати \leqв TeX)!
чл

1
Стаття "P-значення - випадкові змінні" насправді цікава, чи є вступна книга, яка дотримується принципів, викладених у статті?
Алессандро Якопсон

8
Незважаючи на коментар, який я опублікував на запитання, я з того часу зрозумів, що висновок не відповідає дійсності, за винятком особливих випадків. Проблема виникає із складеними гіпотезами, такими як . "Нульова гіпотеза правдива" тепер охоплює багато можливостей, таких як випадок μ 1 = μ 2 - 10 6 . У такому випадку значення р не розподіляться рівномірно. Я підозрюю, що можна створити (дещо штучні) ситуації, в яких, незалежно від того, який елемент нульової гіпотези дотримується, розподіл p-значень ніколи не буде десь однорідним. μ1μ2μ1=μ2106
шурхіт

1
@Greg Snow: Я думаю, що розподіл p-значень не завжди є рівномірним, він є рівномірним, коли вони обчислюються з безперервного розподілу, але не тоді, коли вони обчислюються з дискретного розподілу

1
Відповідь я розширив вище, щоб звернутися до коментаря від @whuber.
Грег Сніг

26

TF(t)P=F(T)ПT

Pr(P<p)=Pr(F1(P)<F1(p))=Pr(T<t)p;
PF()T

Цей результат є загальним: розподіл обертової CDF випадкової величини є рівномірним на .[0,1]


8
ви можете перефразувати свій останній коментар, який трохи заплутаний. Безперервні CDF не обов'язково мають (правильний) зворотний. (Чи можете ви придумати контрприклад?) Тож ваш доказ вимагає додаткових умов. Стандартний спосіб обійти це визначення псевдоінверсії . Аргумент теж стає більш тонким. F(y)=inf{x:F(x)y}
кардинал

1
Що стосується роботи з узагальненими зворотними см link.springer.com/article/10.1007%2Fs00186-013-0436-7 (зокрема, F (T) є лише рівномірним , якщо F неперервна - не має значення F , чи є оборотною або ні). Щодо вашого визначення p-значення: я не думаю, що це завжди "F (T)". Це ймовірність (під нулем) прийняти значення, більш екстремальне, ніж спостережене, тож це може бути і функцією виживання (тут якраз точніше).
Маріус Гоферт

Чи не CDF? F(t)
zyxue

@zyxue Так, cdf іноді називають "розповсюдженням".
mikario

6

Нехай позначає випадкову величину з кумулятивною функцією розподілу для всіх . Припускаючи, що є зворотним, ми можемо отримати розподіл випадкового р-значення наступним чином:TF(t)Pr(T<t)tFP=F(T)

Pr(P<p)=Pr(F(T)<p)=Pr(T<F1(p))=F(F1(p))=p,

з чого можна зробити висновок, що розподіл є рівномірним на .P[0,1]

Ця відповідь схожа на Чарлі, але уникає необхідності визначати .t=F1(p)


Як ви визначили F, чи не P = F (T) = Pr (T <T) = 0?
TrynnaDoStat

Не зовсім точно, «синтаксична заміна» дещо вводить в оману. Формально кажучи, - випадкова величина, визначенаF ( T ) ( F ( T ) ) ( ω ) = F ( T ( ω ) ) : = Pr ( T < T ( ω ) )F(T)=Pr(T<T)F(T)(F(T))(ω)=F(T(ω)):=Pr(T<T(ω))
jII

4

Просте моделювання розподілу p-значень у випадку лінійної регресії між двома незалежними змінними:

# estimated model is: y = a0 + a1*x + e

obs<-100                # obs in each single regression
Nloops<-1000            # number of experiments
output<-numeric(Nloops) # vector holding p-values of estimated a1 parameter from Nloops experiments

for(i in seq_along(output)){

x<-rnorm(obs) 
y<-rnorm(obs)

# x and y are independent, so null hypothesis is true
output[i] <-(summary(lm(y~x)) $ coefficients)[2,4] # we grab p-value of a1

if(i%%100==0){cat(i,"from",Nloops,date(),"\n")} # after each 100 iteration info is printed

}

plot(hist(output), main="Histogram of a1 p-values")
ks.test(output,"punif") # Null hypothesis is that output distr. is uniform

7
Не могли б ви детальніше розказати, як це відповідає на запитання? Хоча його результат ілюструє особливий випадок твердження, жодна кількість коду не змогла б вирішити питання, чому ? Це вимагає додаткових пояснень.
whuber

-1

Я не думаю, що більшість цих відповідей насправді відповідають на це питання в цілому. Вони обмежуються випадком, коли існує проста нульова гіпотеза і коли тестова статистика має неперевернутий CDF (як у безперервній випадковій змінній, яка має різко зростаючий CDF). Ці випадки є випадками, про які більшість людей схильні дбати за допомогою z-тесту та t-тесту, хоча для тестування біноміального середнього (наприклад) у такого немає CDF. Те, що надано вище, здається правильним для моїх очей для цих обмежених випадків.

Якщо нульові гіпотези складені, то справи дещо складніші. Найбільш загальний доказ цього факту, який я бачив у складеному випадку з використанням деяких припущень щодо регіонів відторгнення, наведено у «Тестуванні статистичних гіпотез» Лемана та Романо на сторінках 63-64. Я спробую відтворити аргумент нижче ...

Ми тестуємо нульову гіпотезу проти альтернативної гіпотези на основі тестової статистики, яку ми будемо позначати як випадкової величини . Тестова статистика припускається з якогось параметричного класу, тобто , де є елементом сімейства розподілів ймовірностей , а - простір параметрів. Нульова гіпотеза та альтернативна гіпотеза утворюють розділ у тому H0H1XXPθPθP{PθθΘ}ΘH0:θΘ0H1:θΘ1Θ

Θ=Θ0Θ1
де
Θ0Θ1=.

Результат тесту може бути позначений де для будь-якого набору визначаємо Тут - наш рівень значущості, а позначає область відхилення тесту на рівень значущості .

ϕα(X)=1Rα(X)
S
1S(X)={1,XS,0,XS.
αRαα

Припустимо, регіони відхилення задовольняють якщо . У цьому випадку вкладених областей відхилення корисно визначити не тільки, чи відхилена нульова гіпотеза на заданому рівні значущості , але й визначити найменший рівень значущості, для якого нульова гіпотеза буде відхилена. Цей рівень відомий як значення p , це число дає нам уявлення про наскільки сильні дані (як зображено тестовою статистикою ) суперечать нульовій гіпотезі .

RαRα
α<αα
p^=p^(X)inf{αXRα},
XH0

Припустимо, що для деякої і . Припустимо також, що регіони відхилення підпорядковуються зазначеному вище властивості введення. Потім виконується наступне:XPθθΘH0:θΘ0Rα

  1. Якщо для всіх , то для , supθΘ0Pθ(XRα)α0<α<1θΘ0

    Pθ(p^u)ufor all0u1.

  2. Якщо для маємо для всіх , то для маємо θΘ0Pθ(XRα)=α0<α<1θΘ0

    Pθ(p^u)=ufor all0u1.

Зверніть увагу, що це перше властивість просто говорить нам про те, що хибнопозитивна швидкість регулюється на шляхом відхилення, коли значення p менше, ніж , а друге властивість говорить нам (з урахуванням додаткового припущення), що значення p рівномірно розподіляються під нулем гіпотеза.uu

Доказ такий:

  1. Нехай , і припустимо для всіх . Тоді за визначенням маємо для всіх . З монотонності та припущення випливає, що для всіх . Випускаючи , випливає, що .θΘ0supθΘ0Pθ(XRα)α0<α<1p^{p^u}{XRv}u<vPθ(p^u)Pθ(XRv)vu<vvuPθ(p^u)u

  2. Нехай , і припустимо, що для всіх . Тоді , і за монотонністю випливає, що . Розглядаючи (1), випливає, що . θΘ0Pθ(XRα)=α0<α<1{XRu}{p^(X)u}u=Pθ(XRu)Pθ(p^u)Pθ(p^(X)u)=u

Зауважимо, що припущення в (2) не виконується, коли статистика тесту є дискретною, навіть якщо нульова гіпотеза проста, а не складна. Візьмемо для прикладу з та . Тобто, переверніть монету десять разів і перевірте, чи справедливо проти упередженого по відношенню до головок (закодовано як 1). Ймовірність побачити 10 голів у 10 ярмаркових монетах - (1/2) ^ 10 = 1/1024. Ймовірність побачити 9 або 10 голів у 10 справедливих монетках - 11/1024. Для будь-якого строго між 1/1024 та 11/1024, ви відхилите нуль, якщо , але у нас немає цього для цих значень колиXBinom(10,θ)H0:θ=.5H1:θ>0.5αX=10Pr(XRα)=ααθ=0.5 . Натомість для таких . Pr(XRα)=1/1024α


Слід уточнити, що спільність, що надається у Лемана та Романо, стосується загальних регіонів відхилення. Тим не менш, у вас є лише "дійсні" p-значення для складених нулів і неперервної статистики тесту.
Адам

-12

Якщо значення р рівномірно розподілені під Н0, це означає, що так само ймовірно буде бачити значення р. 0,05 як значення р., Але це не відповідає дійсності, оскільки рідше спостерігається р- значення .05, ніж значення p .80, тому що саме це визначення нормального розподілу, з якого взято р-значення. У діапазоні нормальності буде більше проб, ніж за межами, за визначенням. Тому більше шансів знайти більші р-значення, ніж менші.


3
-1. Це абсолютно неправильно. Цікаво, хто це спровокував. P-значення в точці H0 розподіляються рівномірно.
амеба

1
-1. Це навіть не має достатнього сенсу називатися неправильним: "діапазон нормальності" є безглуздим, а p-значення по суті не мають нічого спільного з нормальним розподілом.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.