Значення "позитивної залежності" як умови використання звичайного методу для контролю FDR


36

Бенджаміні та Хохберг розробили перший (і досі найбільш широко використовується, я думаю,) метод контролю швидкості виявлення помилок (FDR).

Я хочу розпочати з купки значень P, кожне для іншого порівняння, і вирішити, які з них досить низькі, щоб їх можна було назвати "відкриттям", контролюючи FDR до заданого значення (скажімо, 10%). Одне з припущень звичайного методу полягає в тому, що набір порівнянь або незалежний, або має "позитивну залежність", але я не можу точно зрозуміти, що означає ця фраза у контексті аналізу набору значень P.


1
Дякую за нагороду за мою відповідь, Харві! Ви б сказали, що це питання вирішує для вас, чи ви шукаєте більш детальну експозицію? Я помітив, що ви ще не прийняли жодної відповіді, тому я хотів би уточнити. Спасибі. Можливо, ви можете прокоментувати чи відредагувати свій Q, щоб уточнити, що ви хотіли б уточнити.
амеба каже: Відновити Моніку

2
@amoeba. Кінцевий термін для щедроти був на мене, і ваша відповідь була, безумовно, найкращою. Чесно кажучи, мені ніколи в голову не спадало, що дарувати щедрість теж не приймає відповіді. Але я знаю, що це виразно (я буду винуватий у реальному відставанні). Але для повного відповіді дійсно потрібно включити реалістичні приклади, коли набір значень P одночасно має і не має позитивної залежності. Я затримаюсь на прийнятті відповіді на тиждень, сподіваючись, що хтось може навести обидва види прикладів, тому сенс зрозумілий.
Харві Мотульський

Це, мабуть, насправді не є задовольняючим прикладом, але насправді легко придумати р-значення з позитивною залежністю і без неї, якщо ми думаємо про тестування однобічних тестів на корельованих змінних. Уявіть, що я тестую, чи A = 0, а також B = 0 проти однохвостих альтернатив (A> 0 і B> 0). Далі уявіть, що B залежить від А. Наприклад, уявіть, що я хочу знати, чи популяція містить більше жінок, ніж чоловіків, а також чи популяція містить більше яєчників, ніж яєчок. Чітке знання p-значення першого питання змінює наше очікування p-значення для другого
Jacob Socolar

Спасибі, Харві. Я сподіваюся, що було зрозуміло, що я не намагався підштовхнути вас прийняти мою відповідь (!!), а скоріше уточнити, яку відповідь ви шукаєте в цій темі, і що ви все ще хотіли б уточнити. Я насправді не фахівець з цієї теми, просто намагаюся розібратися в цьому.
амеба каже, що повернеться до Моніки

Обидва р-значення змінюються в одному напрямку, і це PRD. Але якщо я замість цього перевіряю другу гіпотезу про те, що в популяції 2 є більше яєчок, ніж яєчників, наше сподівання на друге р-значення зменшується зі збільшенням першого p-значення. Це не PRD.
Яків Соколар

Відповіді:


20

З Вашого питання і , зокрема , ваші коментарі до інших відповідей, мені здається , що ви в основному плутати про «великий картині» тут: а саме те , що робить «позитивна залежність» відноситься в даному контексті взагалі - на відміну від того, що - технічне значення умови PRDS. Тож я розповім про велику картину.

Велика картина

Уявіть, що ви перевіряєте нульових гіпотез, і уявіть, що всі вони правдиві. Кожне з N p- значень - випадкова величина; Повторний експеримент знову і знову давав би різницю p -значення кожного разу, тому можна говорити про розподіл p -значень (під нулем). Загальновідомо, що для будь-якого тесту розподіл р- значень під нулем має бути рівномірним; тому у випадку тестування мультиплікації всі N граничні розподіли p- значень будуть рівномірними.NN ppppNp

Якщо всі дані та всі тестів незалежні один від одного, то спільний N- розмірний розподіл p- значень також буде рівномірним. Це буде правдою, наприклад, у класичній ситуації з «квасолею», коли випробовується купа незалежних речей:NNp

зелена зелена квасоля

Однак це не повинно бути таким. Будь-яка пара -значень може в принципі співвідноситись як позитивно, так і негативно, або залежати дещо складнішим чином. Розглянемо тестування всіх парних відмінностей у засобах між чотирма групами; це N = 4 3 / 2 = 6 тестів. Кожне з шести р- значень поодинці розподілено рівномірно. Але всі вони позитивно співвідносяться: якщо (за певної спроби) група А випадково має особливо низьке середнє значення, то порівняння A-B-B може дати низьке значення p (це було б помилковим позитивом). Але в цій ситуації цілком ймовірно , що A-проти-C, а також А-проти-D, також дають низьку рpN=43/2=6ppp-значення. Таким чином, -значення, очевидно, не є незалежними, а крім того, вони позитивно співвідносяться між собою.p

Це неофіційно те, на що йдеться про "позитивну залежність".

Здається, це звичайна ситуація при багаторазовому тестуванні. Іншим прикладом може бути тестування на відмінності кількох змінних, які корелюють між собою. Отримання значної різниці в одному з них збільшує шанси на отримання значної різниці в іншому.

Складно придумати природний приклад, коли -значення будуть "негативно залежними". @ user43849 зауважив у коментарях вище, що для однобічних тестів це легко:p

Уявіть, що я тестую, чи A = 0, а також B = 0 проти однохвостих альтернатив (A> 0 і B> 0). Далі уявіть, що B залежить від А. Наприклад, уявіть, що я хочу знати, чи популяція містить більше жінок, ніж чоловіків, а також чи популяція містить більше яєчників, ніж яєчок. Чітке знання p-значення першого питання змінює наше очікування p-значення для другого. Обидва р-значення змінюються в одному напрямку, і це PRD. Але якщо я замість цього перевіряю другу гіпотезу про те, що в популяції 2 є більше яєчок, ніж яєчників, наше сподівання на друге р-значення зменшується зі збільшенням першого p-значення. Це не PRD.

Але я поки що не міг придумати природний приклад з точковими нулями.


Зараз точна математична постановка "позитивної залежності", яка гарантує обгрунтованість процедури Бенджаміні-Гохберга, є досить хитрою. Як вже згадувалося в інших відповідях, головне посилання - Бенджаміні і Єкутіелі 2001 ; вони показують, що властивість PRDS ("залежність позитивної регресії для кожного з підмножини") тягне за собою процедуру Бенджаміні-Гохберга. Це розслаблена форма властивості PRD ("позитивна регресійна залежність"), тобто PRD передбачає PRDS, а отже, також тягне за собою процедуру Бенджаміні-Хохберга.

Для визначення PRD / PRDS див. Відповідь @ user43849 (+1) та папір Benjamini & Yekutieli. Визначення є досить технічними, і я не маю належного інтуїтивного розуміння їх. Насправді, B&Y також згадують кілька інших пов'язаних з цим понять: багатоваріантна загальна позитивність порядку другого (MTP2) та позитивна асоціація. За даними B&Y, вони пов'язані так (схема моя):

PRD, PRDS, MTP2 та PA

MTP2 передбачає PRD, що передбачає PRDS, що гарантує правильність процедури БХ. ПДР також має на увазі PA, але ПА РОУ.


Буде чи приклад негативної залежності бути постфактум попарні випробування наступні, скажімо, OneWay ANOVA з трьох груп, де , але ˉ х В < ц В , в той час як ˉ хц і ˉ х зц з , так що поки р  проти  в це менш імовірно , щоб відхилити (бо при H 0 | ˉ х - ˉμA<μB<μCx¯B<μBx¯AμAx¯CμСpA vs. BH0 ), Але зза залежностірB порівнянні Cєбільшймовірнощоб відхилити? |x¯Ax¯B|<|x¯Bx¯C|pB vs. C
Олексій

1
@ Алексис Я сам думав у цьому напрямку, але не думаю, що це працює, тому що нам потрібно враховувати, що відбувається під нулем . У цьому випадку нульовим є те, що , і тому ваші міркування ламаються. μA=μB=μC
амеба каже, що повернеться до Моніки

Так, якщо це важко думати про ситуаціях негативних залежностей, то процедура Benjamini-Хехберг діє в ситуації , як постфактум попарних тести після відмови в омнібусі нульової гіпотези щодо незалежних груп (наприклад , НЕ OneWay заблокований ANOVA, Q Кохрена, Круськала Уолліс та ін.)?
Олексій

@ Алексис Я вважаю, що це правильно, так. Я все ще намагаюся придумати природний приклад з негативною залежністю ...
Амеба каже: Відновити Моніку

РОКУ! Давай, дівчинко! :) (Для гендерних значень слова "дівчина";).
Олексій

18

Чудове запитання! Давайте відступимо і розберемося, що зробив Бонферроні, і чому Бенджаміні та Хохбергу потрібно було розробити альтернативу.

В останні роки стало необхідним і обов'язковим виконувати процедуру, що називається багаторазовою корекцією тестування. Це пов’язано зі збільшенням кількості тестів, які проводяться одночасно з науками з високою пропускною здатністю, особливо в генетиці з появою цілих досліджень асоціації геномів (GWAS). Вибачте моє посилання на генетику, оскільки це моя сфера роботи. Якщо ми проводимо 1,000,000 тестів одночасно на , ми очікували б 50 , 000 помилкових спрацьовувань. Це смішно велике значення, і тому ми повинні контролювати рівень, на якому оцінюється значимість. Корекція бонферроні, тобто ділення порогу прийняття (0,05) на кількість незалежних тестів ( 0,05 / МP=0.0550,000 виправляє ступінь помилки сімейної помилки ( F W E R ).(0.05/M)FWER

Це справедливо тому , що FWER пов'язано з частотою помилок тест-навхрест ( ) рівнянням Р Ш Е R = 1 - ( 1 - Т Ш Е Р ) М . Тобто на 100 відсотків мінус 1 віднімаємо тестову швидкість помилок, підняту на потужність кількості незалежних тестів. Зробимо припущення, що ( 1 - 0,05 ) 1 / М = 1 - 0,05TWERFWER=1(1TWER)M даєTWER0,05(10.05)1/M=10.05M , що є значенням приймання Р, скоригованим для M повністю незалежних тестів.TWER0.05M

Проблема, з якою ми стикаємось зараз, як і Бенджаміні та Хохберг, полягає в тому, що не всі тести є абсолютно незалежними. Таким чином, корекція Бонферроні, хоч і міцна і гнучка, є надмірною корекцією . Розглянемо випадок у генетиці, коли два гена пов'язані у випадку, який називається зв’язковою нерівновагою; тобто коли один ген має мутацію, інший, швидше за все, експресується. Це, очевидно, не незалежні тести, хоча в корекції бонферроні вони передбачаються . Тут ми починаємо бачити, що ділення значення P на M створює поріг, який є штучно низьким через припущені незалежні тести, які реально впливають один на одного, ерго створюючи М, занадто великий для нашої реальної ситуації, де речі не є Незалежний.

Процедура, запропонована Бенджаміні та Хохбергом та доповнена Єкутіелі (та багатьма іншими), є більш ліберальною, ніж Бонферроні, і фактично корекція Бонферроні використовується лише у самих найбільших дослідженнях, що зараз є. Це тому, що в FDR ми припускаємо деяку взаємозалежність з боку тестів, і, таким чином, М, який є занадто великим і нереальним і позбавляється від результатів, які нас насправді хвилюють. Тому у випадку 1000 тестів, які не є незалежними, справжній M не буде 1000, а щось менше через залежності. Таким чином, коли ми ділимо 0,05 на 1000, поріг є занадто суворим і уникає деяких тестів, які можуть представляти інтерес.

Я не впевнений, чи не піклуєтесь ви про механіку, яка стоїть за контролем залежності, хоча, якщо ви це зробите, я зв'язав документ Єкутіелі для вашої довідки. Я також додаю ще кілька речей для вашої інформації та цікавості.

Сподіваюсь, це допомогло якимось чином, якщо я щось неправильно представив, будь ласка, дайте мені знати.

~ ~ ~

Список літератури

Документ Yekutieli про позитивні залежності - http://www.math.tau.ac.il/~ybenja/MyPapers/benjamini_yekutieli_ANNSTAT2001.pdf

(див. 1.3 - Проблема.)

Пояснення Бонферроні та інших цікавих речей - відгуки Nature Genetics. Статистичні випробування на владу та значимість у масштабних генетичних дослідженнях - Пак С Шам та Шаун М Перселл

(див. графі 3.)

http://en.wikipedia.org/wiki/Familywise_error_rate

Редагувати:

У своїй попередній відповіді я не визначав безпосередньо позитивну залежність, про що і питали. У статті Єкутіелі розділ 2.2має назву Позитивна залежність, і я пропоную це, оскільки він дуже детальний. Однак я вважаю, що ми можемо зробити це трохи більш лаконічним.

Стаття спочатку починається з розмови про позитивну залежність, використовуючи її як розпливчастий термін, який можна інтерпретувати, але не конкретно. Якщо ви читаєте докази, то, що згадується як позитивна залежність, називається PRSD, визначеним раніше як "Залежність позитивної регресії для кожного з підмножини ". I 0 - це підмножина тестів, які правильно підтримують нульову гіпотезу (0). Потім PRDS визначається наступним чином.I0I0

PRDS

- це весь наш набір тестових статистик, а I 0 - це наш набір статистичних даних тестів, які правильно підтримують нуль. Таким чином, для того, щоб X був PRDS (позитивно залежним) від I 0 , ймовірність того, що X є елементом I 0 (нульовихзначень), збільшується у не зменшуваному наборі статистичних даних тестів x (елементи X ).XI0XI0XI0xX

Інтерпретуючи це, коли ми впорядковуємо наші від найнижчого до найвищого, ймовірність бути частиною нульового набору тестових статистик є найнижчою при найменшому значенні Р, а звідти збільшується. FDR встановлює межу в цьому списку тестової статистики таким чином, що ймовірність бути частиною нульового набору становить 0,05. Це те, що ми робимо, контролюючи FDR.P

Підсумовуючи, властивість позитивної залежності насправді є властивістю позитивної регресії всієї сукупності тестових статистик від нашого набору справжньої нульової статистики випробувань, і ми контролюємо FDR 0,05; таким чином, оскільки значення P йдуть знизу вгору (процедура посилення), вони збільшують ймовірність бути частиною нульового набору.

Моя колишня відповідь у коментарях щодо матриці коваріації була невірною, лише трохи розпливчастою. Я сподіваюся, що це допоможе трохи більше.


6
Спасибі. Ви надаєте чіткий огляд контролю рівня помилок сімейних помилок (Bonferroni тощо) та контролю FDR, але я все ще не розумію, що означає "позитивна залежність". Подумайте, що я маю значення 1000 P, тестуючи експресію 1000 різних генів, порівнюючи людей із захворюванням та без нього. Я використовую метод БГ, щоб вирішити, яке з цих порівнянь є "відкриттями". Що означає «позитивна залежність» у цьому контексті?
Харві Мотульський

9
Невелика, але важлива примітка: Бонферроні абсолютно не припускає щодо незалежності. Насправді це буде правильно висвітлено у взаємовиключній справі, яка певним чином є настільки далеко не незалежною, як ви можете отримати. Там є процедура корекції (Sidak) , що робить припустить незалежність і більш сильно контролювати FWER при цьому припущенні. Відмовившись від інших аспектів цієї відповіді, можна також скористатися легким підключенням.
кардинал

2
@ChrisC Я досі не розумію. "Коваріаційна матриця між елементами"? Я починаю зі списку значень P, і хочу вирішити, які досить низькі показники можна назвати "відкриттями", на які варто слідкувати далі (з контролем FDR). Які елементи матриці коваріації? Скажімо, кожне значення P порівнює експресію певного гена між групами, і таких генів багато. Для кожного гена при тесті порівнюють групи, що призводять до значення Р. Що означає, що в цій ситуації "елементи можуть різнитися разом" або мають "позитивні кореляції між собою"?
Харві Мотульський

2
@ChrisC Дякую Це стає більш зрозумілим, але я все ще не дуже розумію, що означає це припущення. Вся суть знання про припущення, що стоїть за методом, полягає в тому, щоб знати, коли ви, ймовірно, будете його порушувати. Тож це допоможе перерахувати деякі сценарії, коли припущення не відповідає дійсності. Коли нижче значення P не буде пов'язане з більшою ймовірністю помилкової гіпотези?
Харві Мотульський

1
Це не дає відповіді на запитання.
Олексій

10

Я вважав цей переддрук корисним для розуміння сенсу. Слід сказати, що я пропоную цю відповідь не як експерт у цій темі, а як спробу зрозуміти, щоб бути перевіреною та підтвердженою громадою.

Завдяки Amoeba за дуже корисні спостереження щодо різниці між PRD та PRDS, дивіться коментарі

pCpC

  1. qC
  2. rqrqri<qii
  3. rC

C

pp1...pn<B1...BnpCB1...Bn

pipipip1...pnp1...pnpi

p1...pn

pnpn<BBpn<B. If the p-values are independent, then our expectation for the remaining p-values is the uniform distribution from 0 to 1. But if the p-values are not independent, then knowing pn<B might change our expectation for the remaining p-values. PRDS says that increasing the value of B must not decrease our expectation for any of the remaining p-values corresponding to the true null hypotheses.

Edited to add:

Here's a putative example of a system that is not PRDS (R code below). The logic is that when samples a and b are very similar, it is more likely that their product will be atypical. I suspect that this effect (and not the non-uniformity of p-values under the null for the (a*b), (c*d) comparison) is driving the negative correlation in the p-values, but I cannot be sure. The same effect appears if we do a t-test for the second comparison (rather than a Wilcoxon), but the distribution of p-values still isn't uniform, presumably due to violations of the normality assumption.

ab <- rep(NA, 100000)  # We'll repeat the comparison many times to assess the relationships among p-values.
abcd <- rep(NA, 100000)

for(i in 1:100000){
  a <- rnorm(10)    # Draw 4 samples from identical populations.
  b <- rnorm(10)
  c <- rnorm(10)
  d <- rnorm(10)

  ab[i] <- t.test(a,b)$p.value          # We perform 2 comparisons and extract p-values
  abcd[i] <- wilcox.test((a*b),(c*d))$p.value
}

summary(lm(abcd ~ ab))    # The p-values are negatively correlated

ks.test(ab, punif)    # The p-values are uniform for the first test
ks.test(abcd, punif)   # but non-uniform for the second test.
hist(abcd)

I'm sorry, but I don't really follow this.
Harvey Motulsky

Does the new final paragraph clear it up at all?
Jacob Socolar

@ Amoeba, yeah, I think you're right. The Yekutieli papers linked by previous posters are treatments of PRDS. As far as I can tell, PRD is the same property, but across all of the test statistics (or p-values), not just the subset corresponding to true nulls.
Jacob Socolar

1
Yup, you're absolutely right. Editing now.
Jacob Socolar

1
Interesting example, but the effect is super-weak: I get correlation coefficient (between ab and abcd) of around -0.03... But I don't get it: why do you say that "when samples a and b are very similar, it is more likely that their product will be atypical"?
amoeba says Reinstate Monica

4

In their paper, Benjamini and Yekutieli provide some examples of how positive regression dependence (PRD) is different from just being positively associated. The FDR control procedure relies on a weaker form of PRD which they call PRDS (i.e. PRD on each one from a subset of variables).

Positive dependency was originally proposed in the bivariate setting by Lehmann, but the multivariate version of this concept, known as positive regression dependency is what is relevant to multiple testing.

Here is a relevant excerpt from pg.6

Nevertheless, PRDS and positive association do not imply one another, and the difference is of some importance. For example, a multivariate normal distribution is positively associated iff all correlations are nonnegative. Not all correlations need be nonnegative for the PRDS property to hold (see Section 3.1, Case 1 below). On the other hand, a bivariate distribution may be positively associated, yet not positive regression dependent [Lehmann (1966)], and therefore also not PRDS on any subset. A stricter notion of positive association, Rosenbaum’s (1984) conditional (positive) association, is enough to imply PRDS: X is conditionally associated, if for any partition (X1,X2) of X, and any function h(X1), X2 given h(X1) is positively associated. It is important to note that all of the above properties, including PRDS, remain invariant to taking comonotone transformations in each of the coordinates [Eaton (1986)].

Background on these concepts is clearly presented in Eaton (1986), supplemented by Holland and Rosenbaum (1986).

2

Positive dependence in this case means that the set of tests are positively correlated. The idea then is that if the variables in the set of tests that you have P-values for are positively correlated then each of the variables are not independent.

If you think back about a Bonferroni p-value correction, for example, you can guarantee that the type 1 error rate is less than 10% over say 100 statistically independent tests by setting your significance threshold to 0.1/100 = 0.001. But, what if each of those 100 tests a correlated in some way? Then you haven't really performed 100 separate tests.

In FDR, the idea is slightly different than the Bonferroni correction. The idea is to guarantee that only a certain percent (say 10%) of the things you declare significant are falsely declared significant. If you have correlated markers (positive dependence) in your dataset, the FDR value is chosen based on the total number of tests you perform (but the actual number of statistically independent tests is smaller). In this way it is more safe to conclude that the false discovery rate is falsely declaring significant 10% or less of the tests in your set of P-values.

Please see this book chapter for a discussion of positive dependence.


2
You explain FDR vs. Bonferroni, but don't define "positive dependency" but rather just reword it to "positively correlated" but I don't understand. Consider that I have 1000 P values, testing expression of 1000 different genes comparing people with and without some disease. I use the BH method to decide which of these comparisons are "discoveries". What does "positive dependency" mean in this context?
Harvey Motulsky

5
This answer is flat out wrong. Positive Regression Dependency and being positively associated are different from one another. The Benjamini Yekutieli paper explains this and provides references too. "Nevertheless, PRDS and positive association do not imply one another, and the difference is of some importance. For example, a multivariate normal distribution is positively associated iff all correlations are nonnegative. Not all correlations need be nonnegative for the PRDS property to hold (see Section 3.1, Case 1 below)." See pg. 6 of the paper.
user3303
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.