При поєднанні p-значень, чому б не просто усереднювати?


44

Нещодавно я дізнався про метод Фішера для поєднання p-значень. Це ґрунтується на тому, що p-значення під нулем має рівномірний розподіл, і що який я думаю геній. Але моє запитання - чому йти цим звивистим шляхом? а чому б ні (що не так), просто використовуючи середнє значення p та використовуючи центральну граничну теорему? або медіана? Я намагаюся зрозуміти генія Р. А. Фішера за цією грандіозною схемою.

2i=1nlogXiχ2(2n), given XUnif(0,1)

24
Це зводиться до основної аксіоми ймовірності: р-значення - це ймовірності, а ймовірності для результатів незалежних експериментів не додаються, вони примножуються. Що стосується множення, логарифми спрощують добуток до суми: звідси . (Те, що воно має розподіл у квадраті, є непереборним математичним наслідком.) Далеко не починається "перекрученим", це, мабуть, найпростіша і закономірна (законна) процедура. log(Xi)
whuber

5
Скажіть, у мене є 2 незалежні вибірки з тієї ж сукупності (скажімо, у нас є один зразок t-тесту). Уявіть, що середнє значення вибірки та стандартні відхилення приблизно однакові. Отже р-значення для першого зразка становить 0,0666, а для другого зразка - 0,0668. Якою має бути загальна p-величина? Ну, чи повинно бути 0,0667? Насправді це цілком очевидно, що він повинен бути меншим. У цьому випадку «правильною» справою є об'єднання зразків, якщо вони у нас є. У нас було б приблизно те саме середнє і стандартне відхилення, але вдвічі більший розмір вибірки . Стд. похибка середнього значення менша, а значення р повинно бути меншим.
Glen_b

3
Звичайно, є й інші способи комбінування р-значень, хоча продукт - це найприродніший спосіб зробити це. Можна, наприклад, додати значення p; під спільним нулем сума їх повинна мати трикутне розподіл. Або можна перетворити р-значення в z-значення та додати ці (і якщо ви поєднуєте результати подібних за розміром не надто малих зразків у нормальної сукупності, це мало б багато сенсу). Але продукт - очевидний спосіб продовження; це має логічний сенс кожен раз.
Glen_b

1
Зауважте, що метод Фішера базується на продукті, що я характеризую як природний - адже ви множите незалежні ймовірності, щоб знайти їх спільну ймовірність. Зважаючи на те, що ГМ насправді не відрізняється від продукту, окрім того, є додатковий крок у з'ясуванні того, що відповідає відповідному об'єднаному p-значенню, тому що, відпрацювавши ГМ ( , скажімо), взявши продукт, вам потрібно буде подивитися - 2 n log g = - 2 log ( g n ) отримують об'єднане p-значення. Що означає, що ви перетворили GM назад на продукт, перш ніж брати журнали, щоб знайти комбіновану p-величину. g2nlogg=2log(gn)
Glen_b

1
Я б просив, щоб кожен читав твір Дункана Мердока "P-значення - випадкові змінні" у "Американському статистику". Я знаходжу копію в Інтернеті по адресою: hypergeometric.files.wordpress.com/2013/09 / ...
Двіні

Відповіді:


35

Ви можете ідеально використовувати середнє значення значення.p

Набір методу Фішера встановлює поріг на - 2 n i = 1 log p i , такий, що якщо нульова гіпотеза H 0 : всі p -значення дорівнює U ( 0 , 1 ) , тоді - 2 i log p i перевищує s α з ймовірністю α . H 0 відхиляється, коли це відбувається.sα2i=1nlogpiH0pU(0,1)2ilogpisααH0

Зазвичай один приймає а s α задається квантилом χ 2 ( 2 n ) . Рівно, що можна працювати на добутку i p i, який нижчий, ніж e - s α / 2 з вірогідністю α . Ось для n = 2 графік, що показує зону відхилення (червоним кольором) (тут ми використовуємо s α = 9,49 . Зона відхилення має площу = 0,05.α=0.05sαχ2(2n)ipiesα/2αn=2sα=9.49

Фішер

Тепер ви можете обрати роботу над 1ni=1npiipitαpitααtαnn=2tα=(2α)12

сума p значень

Як ви можете собі уявити, багато інших форм для зони відхилення можливі і були запропоновані. Не апріорі зрозуміло, що краще - тобто, яка має більшу силу.

p1p2z

> p1 <- pchisq( rnorm(1e4, 1, 1)**2, df=1, lower.tail=FALSE )
> p2 <- pchisq( rnorm(1e4, 1, 1)**2, df=1, lower.tail=FALSE )

Давайте подивимось на розсіювач з червоним кольором точки, щодо яких нульова гіпотеза відкидається.

Діаграма розкиду

Потужність продуктового методу Фішера приблизно

> sum(p1*p2<exp(-9.49/2))/1e4
[1] 0.2245

p

> sum(p1+p2<sqrt(0.1))/1e4
[1] 0.1963

Так виграє метод Фішера - принаймні в цьому випадку.


2
n=2tα=2αn=3n>30.5nn/12

1
p

26

p

p

Ще можна додати їх. Насправді саме це запропонував Едінгтон (1972 р.) Аддитивний метод поєднання значень ймовірності незалежних експериментів (під оплатою), а іноді його називають методом Едінгтона. У статті 1972 року робиться висновок про те, що це стверджується

Показано, що аддитивний метод є більш потужним, ніж мультиплікативний метод, маючи більшу ймовірність, ніж мультиплікативний метод, що дає значні результати, коли насправді є ефекти лікування.

але враховуючи, що метод залишається відносно невідомим, я підозрюю, що це було принаймні надмірним спрощенням. Наприклад, недавній огляд Cousins ​​(2008) Анотована бібліографія деяких статей про об'єднання значень або p-значень взагалі не згадує метод Едінгтона, і, здається, цей термін ніколи не згадувався і в CrossValidated.

pz2z

Тож відповідь на загальне запитання про те, чому взагалі використовувати будь-який «згорнутий» метод, полягає в тому, що можна здобути силу.

Zaykin et al (2002) Метод обрізаного продукту для комбінування р-значень виконує деякі імітації та включає в порівняння метод Едінгтона, але я не впевнений у висновках.

n=2

Поєднання р-значень

Сказавши все це, я думаю, що все ще залишається питання про те, чому метод Еддінгтона (часто?) Буде неоптимальним, як це випливає з неясного.

n=2p1=0.4p2α=0.05p2=0.00000001

pp=0.001p=0.00000001


p

p

S=p1++pk,
SSp Однак чисельних досліджень цієї процедури майже не було.

1
Дякую, @Glen_b! Я радий, що ця тема отримала додаткову і заслужену видимість. До речі, мені не було відомо, що цю процедуру називають "методом Едінгтона", поки я не почав досліджувати цю відповідь.
Амеба каже, що відбудеться Моніка

9

Отже, якщо ви провели три дослідження подібних розмірів і отримали значення р 0,05 за всі три рази, ваша інтуїція полягає в тому, що "справжнє значення" повинно бути 0,05? Моя інтуїція інша. Кілька подібних результатів, здавалося б, підвищують значущість (і тому р-значення, які є ймовірністю, повинні бути нижчими). Р-значення насправді не є ймовірністю. Вони є твердженнями щодо вибіркового розподілу спостережуваних значень за певною гіпотезою. Я вважаю, що це, можливо, дало підтримку думці, що можна зловживати ними як такими. Я шкодую, що зробив це твердження.

У будь-якому випадку, при нульовій гіпотезі про відсутність різниці шанси отримати декілька крайніх p-значень здадуться набагато більш імовірними. Кожен раз, коли я бачу твердження про те, що р-значення рівномірно розподіляється від 0-1 під нульовою гіпотезою, я відчуваю вимушеність перевірити його за допомогою моделювання, і поки що твердження, здається, має місце. Я, мабуть, не думаю свідомо в логарифмічному масштабі, хоча принаймні частина моєї мозкової нервової мережі повинна бути.

Якщо ви хочете кількісно оцінити цю інтуїцію, запропонована вами формула (з невеликим переглядом) відображається на сторінці Вікіпедії: http://en.wikipedia.org/wiki/Fisher%27s_method , а відповідна графіка дозволяє кількісно оцінити візуально та напів- кількісно вплив отримання двох малих p-значень на загальну значимість. Наприклад, зчитування з кольорово-графічної графіки, 2 одночасних p-значення 0,05 давали б синтетичне p-значення приблизно .02. Ви також можете дослідити вплив на t-статистику подвоєння розміру вибірки. Розмір вибірки входить до вибіркової t-статистики як 1 / sqrt (n-1), щоб ви могли подивитися на вплив цього фактора в результаті переходу від 50 до 100. (в R :)

 plot(1:100, 1/sqrt(1:100) ,ylim=c(0,1) )
 abline(h=1/sqrt(c(50,100)))

Ці два підходи дають різні кількісні результати, оскільки співвідношення значень 1 / sqrt (n) для 50 і 100 не є таким, як відношення 0,05 до 0,02. Обидва підходи підтримують мою інтуїцію, але в різній мірі. Можливо, хтось інший може вирішити цю невідповідність. Ще третім підходом було б врахувати ймовірність отримання двох випадкових малюнків "True", коли біноміальна ймовірність кожного розіграшу була 0,05. (вкрай несправедлива кістка) Ця спільна подія повинна мати ймовірність .05 * .05 = .002, результат якого може бути розглянуто з "іншого боку" оцінки Фішера. Я щойно провів моделювання 50000 одночасних тестів. Якщо накреслити результати, то це дуже схоже на карти космічного фонового випромінювального поля ... тобто. переважно випадкові.

 t1 <- replicate(50000, t.test(rnorm(50))$p.value )
     t2 <- replicate(50000, t.test(rnorm(50))$p.value )
 table(t1 < 0.05, t2 < 0.05)
 plot(t1, t2, cex=0.1)
#        FALSE  TRUE
#  FALSE 45099  2411
#  TRUE   2380   110
 110/(50000-110)
#[1] 0.002204851

Спасибі за вашу відповідь. Інтуїція, яку ви згадали, насправді має сенс. Я вважав би ті випадки, які ви згадали, більш вагомими. Але чи є спосіб викласти цю думку більш математично?
Альбі

palpha

Я бачив це. Не був переконаний.
DWin

1
p1=0.05p2=0.05

Метод усереднення "підкреслює" або зважує складену гіпотезу, що обидві окремі гіпотези разом з ними відкидаються. Це здається невимовним обмеженням.
DWin
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.