Виправлення p-значень для декількох тестів, де тести співвідносяться (генетика)


24

Я маю значення p з багатьох тестів і хотів би знати, чи є насправді щось важливе після виправлення для багаторазового тестування. Ускладнення: мої тести не є незалежними. Метод, про який я думаю (варіант методу продукту Фішера, Зайкін та ін., Genet Epidemiol , 2002), потребує кореляції між значеннями p.

Для того, щоб оцінити цю кореляцію, я зараз замислююсь про випадки завантаження, запуск аналізів та співвіднесення отриманих векторів значень p. Хтось має кращу ідею? Або навіть краща ідея для моєї оригінальної проблеми (виправлення багаторазового тестування у корельованих тестах)?

Передумови: Я логічно регресую, страждають чи ні мої суб'єкти від певного захворювання під час взаємодії між їх генотипом (AA, Aa чи aa) та коваріатом. Однак насправді генотипу є чимало (30-250) одиничних нуклеотидних поліморфізмів (SNPs), які, безумовно, не є незалежними, але знаходяться в стані розриву рівноваги.

Відповіді:


29

Це насправді гаряча тема в дослідженнях геномного аналізу (GWAS)! Я не впевнений, що метод, про який ви думаєте, є найбільш підходящим у цьому контексті. Об'єднання р-значень було описано деякими авторами, але в іншому контексті (дослідження реплікації чи мета-аналіз, див., Наприклад, (1) для останнього огляду). Об'єднання рН-значень SNP методом Фішера, як правило, використовується, коли хочеться отримати унікальне значення р для даного гена; це дозволяє працювати на генному рівні та зменшити величину розмірності наступного тестування, але, як ви вже сказали, незалежність між маркерами (що виникає через просторової колокації або нерівноваги зв’язку, LD) вводить зміщення. Більш потужні альтернативи покладаються на процедури перекомпонування,

Моя основна проблема при завантаженні (із заміною) полягає в тому, що ви вводите штучну форму спорідненості, або іншими словами, ви створюєте віртуальних близнюків, отже, змінюючи рівновагу Харді-Вайнберга (але також мінімальну частоту алелів та швидкість дзвінка). Це не було б при перестановковому підході, коли ви переставляєте окремі мітки та зберігаєте дані генотипування такими, які є. Зазвичай програмне забезпечення планки може давати вам сирі та перестановлені р-значення, хоча воно використовує (за замовчуванням) адаптивну стратегію тестування з розсувним вікном, що дозволяє зупинити виконання всіх перестановок (скажімо, 1000 за SNP), якщо виявиться, що SNP під розгляд не "цікавий"; він також має можливість для обчислення maxT, дивіться онлайн-довідку .

Але, враховуючи низьку кількість SNP, які ви розглядаєте, я б запропонував покластися на тести, засновані на FDR або maxT, як реалізовано в пакеті багатодоступних R (див. mt.maxT), Але остаточним керівництвом щодо стратегій перекомпонування в геномному застосуванні є кілька процедур тестування з додатками до Геноміка , з Dudoit & van der Laan (Springer, 2008). Дивіться також книгу Андреа Фолкеса про генетику з R , яка розглядається в JSS. У неї є чудовий матеріал про безліч процедур тестування.

Подальші примітки

Багато авторів вказували на той факт, що прості методи корекції багаторазового тестування, такі як Bonferroni або Sidak, є надто суворими для коригування результатів для окремих SNP. Більше того, жоден із цих методів не враховує кореляцію, яка існує між SNP за рахунок LD, який позначає генетичну варіацію в різних областях генів. Інші альтернативи бджоли запропонували, як похідне методу Холма для багаторазового порівняння (3), прихованої моделі Маркова (4), умовного або позитивного FDR (5) або його похідного (6), щоб назвати декілька. Так звана статистика розривів або розсувне вікно в деяких випадках виявилися успішними, але ви знайдете хороший огляд у (7) та (8).

Я також чув про методи, які ефективно використовують структуру гаплотипу або ЛД, наприклад (9), але я ніколи їх не використовував. Однак вони, мабуть, більше пов'язані з оцінкою кореляції між маркерами, а не значенням p, як ви мали на увазі. Але насправді, ви можете краще подумати з точки зору структури залежності між послідовними статистичними тестами, ніж між співвіднесеними р-значеннями.

Список літератури

  1. Cantor, RM, Lange, K і Sinsheimer, JS. Пріоритетність результатів GWAS: огляд статистичних методів та рекомендацій щодо їх застосування . Am J Hum Genet. 2010. 86 (1): 6–22.
  2. Corley, RP, Zeiger, JS, Crowley, T et al. Асоціація кандидатних генів із антисоціальною залежністю від наркотиків у підлітків . Залежність від наркотиків та алкоголю 2008: 96: 90–98.
  3. Dalmasso, C, Génin, E і Trégouet DA. Процедура зваженого Холма, що враховує частоти аллелів у дослідженнях асоціацій генома . Генетика 2008 180 (1): 697–702.
  4. Вей, Z, Сонце, W, Ван, К і Хаконсон, Х. Багаторазові випробування в дослідженнях асоціацій з широким геномом за допомогою прихованих моделей Маркова . Біоінформатика 2009 25 (21): 2802-2808.
  5. Броберг, П. Порівняльний огляд оцінок пропорції генів, що не змінюються, та швидкості виявлення помилок . BMC Bioinformatics 2005 6: 199.
  6. Потрібно, AC, Ge, D, Weale, ME та ін. Геномне дослідження SNP та CNV у шизофренії . PLoS Genet. 2009 р. 5 (2): e1000373.
  7. Хан, В, Канг, ХМ та Ескін, Е. Швидке та точне багаторазове виправлення корекції та оцінка потужності для мільйонів корельованих маркерів . PLoS Генетика 2009
  8. Лян, Я і Келемен, А. Статистичний прогрес і проблеми для аналізу корельованих даних високих розмірів snp при геномному дослідженні складних захворювань . Статистичні опитування 2008 2: 43–60. - найкращий останній огляд за будь-який час
  9. Nyholt, DR. Проста корекція для багаторазового тестування однонуклеотидних поліморфізмів у взаємозв'язку взаємозв'язку між собою . Am J Hum Genet. 2004 р. 74 (4): 765–769.
  10. Нікодим, К.К., Лю, Ш, Чейз, Г.А., Цай, Ю.Й., і Фоллін, доктор медицини. Порівняння помилок типу I для багаторазових виправлень випробувань у великих дослідженнях одноядерного поліморфізму з використанням основних компонентів проти алгоритмів блокування гаплотипів . BMC Genetics 2005; 6 (Доп. 1): S78.
  11. Peng, Q, Zhao, J та Xue, F. PCA-тести на основі впевненого завантаження на основі PCA для асоціації генів-хвороб із залученням декількох SNP . BMC Genetics 2010, 11: 6
  12. Li, M, Romero, R, Fu, WJ та Cui, Y (2010). Картографування взаємодій гаплотипу та гаплотипу з адаптивним LASSO . BMC Genetics 2010, 11:79 - хоча безпосередньо не пов'язане з питанням, воно охоплює аналіз на основі гаплотипу / епістатичний ефект

1
О, дякую, що пішов на всю цю неприємність! Я розумію ваші почуття щодо завантаження, і я майже переконаний. Я думаю, що моє головне ускладнення - це числовий коваріат, який у мене, безумовно, буде необхідний (сам по собі або у взаємодії з генотипом), і це, здається, виключає mt.maxT і мерехтіння, хоча мені може знадобитися заглянути ще раз. Але я обов'язково перегляну посилання, які ви надали!
S. Kolassa - Відновіть Моніку

Ви завжди можете працювати з залишками свого GLM, щоб позбутися ваших коваріатів, хоча ви втратили деякий Df, який буде важко врахувати або повторно ввести згодом (наприклад, для обчислення p-значення).
chl

Гм, залишки від моєї логістичної регресії? Це було б законно?
S. Kolassa - Відновіть Моніку

Так, чому ні? Не рідкість вилучити дисперсію, яку враховують інші коваріати, а потім перейти до аналізу 2-го рівня зі своїми резидуалізованими даними. Це часто швидше (наприклад, планкінг досить повільний з категоричними коваріатами, тоді як це нормально з безперервними; snpMatrixабо просто glm()в цьому питанні працює набагато краще, але ви не можете вставити багато SNP в межах glm()...); проблема полягає в тому, що отримати виправлене p-значення наприкінці другого аналізу досить складно (адже вам доведеться враховувати вже оцінені параметри).
chl

Для ілюстрації того, як люди працюють із залишками, див., Наприклад, стор. 466 Heck та ін. Дослідження 17 генів-кандидатів на риси особистості підтверджує вплив гена HTR2A на пошук новинок. Гени, мозок та поведінка (2009) vol. 8 (4) , стор 464-72.
CHL

2

Використовуючи такий метод, як бонферроні, це нормально, проблема полягає в тому, що якщо у вас багато тестів, ви, швидше за все, не знайдете багатьох "відкриттів".

Ви можете піти з FDR підходом до залежних тестів (див. Тут деталі ). Проблема полягає в тому, що я не впевнений, чи можете ви сказати заздалегідь, якщо ваші кореляції є позитивними.

У R ви можете зробити простий FDR з p.adjust. Для більш складних речей я би поглянув на мультикомплект , але я не переглянув це, щоб шукати рішення у випадках залежності.

Удачі.


1
Привіт Тале, дякую! Бонферроні мені не здається підходящим - якщо один з моїх SNP є причинним, а інші пов’язані з ним, повинен бути сигнал, і Бонферроні завжди виглядав занадто консервативно для мене (я зазвичай вважаю за краще покрокову корекцію Холма). FDR, на який ви посилаєтесь, і p.adjust не розглядають комбіновані докази (а FDR все ще вимагає від мене розуміння кореляції моїх тестів, оригінальне запитання). multicomp може допомогти, хоча на перший погляд здається, що він має справу з декількома тестами в межах однієї моделі, тоді як у мене є кілька моделей. Я копаю глибше ...
С. Коласа - Відновіть Моніку

Привіт Стефане. Я розумію, вибачте за те, що більше не допомагаю. Удачі! Тал
Тал Галілі

Привіт Стефане, я все ще думаю, що ви все ще можете використовувати метод = BY (для процедури Бенджаміні Хохберга Йекутелі) в p.adjust в R, як вказував Тал. Безумовно, використання Бонферроні може бути консервативним.
suncoolsu

suncoolsu, я думаю, що цей метод працює лише тоді, коли кореляція є позитивною (а не негативною) між змінними. Ура.
Тал Галілі

2

Я думаю, що багатоваріантні нормальні моделі використовуються для моделювання співвідносних значень p та для отримання правильного типу множинних виправлень. Швидке та точне багаторазове виправлення корекції та оцінка потужності для мільйонів корельованих маркерів. PLoS Genet 2009 розповідає про них, а також дає інші посилання. Це звучить аналогічно тому, про що ви говорили, але я думаю, що крім отримання більш точної глобальної корекції p-значення, знання LD-структури також слід використовувати для видалення помилкових позитивів, що виникають із маркерів, співвіднесених із причинними маркерами.


2

Я шукаю робоче рішення для точно тієї ж проблеми. Найкращим, що я знайшов, є « Нульовий необмежений завантажувальний пристрій», представлений Фулкесом Андреа у його книзі « Прикладна статистична генетика з Р» (2009) . На відміну від усієї кількості інших статей і книг, він розглядає конкретно регресії. Крім інших методів, він радить Null Unrestricted Bootstrap, який підходить там, де не можна легко обчислити залишки (як у моєму випадку, де я моделюю багато незалежних регресій (в основному прості кореляції), кожна з однаковою змінною відповіді та різним фрагментом). Я знайшов цей метод також називати методом maxT .

> attach(fms)
> Actn3Bin <- > data.frame(actn3_r577x!="TT",actn3_rs540874!="AA",actn3_rs1815739!="TT",actn3_1671064!="GG")
> Mod <- summary(lm(NDRM.CH~.,data=Actn3Bin))
> CoefObs <- as.vector(Mod$coefficients[-1,1]) 
> B <-1000
> TestStatBoot <- matrix(nrow=B,ncol=NSnps)
> for (i in 1:B){
+    SampID <- sample(1:Nobs,size=Nobs, replace=T)
+    Ynew <- NDRM.CH[!MissDat][SampID]
+    Xnew <- Actn3BinC[SampID,]
+    CoefBoot <- summary(lm(Ynew~.,data=Xnew))$coefficients[-1,1]
+    SEBoot <- summary(lm(Ynew~.,data=Xnew))$coefficients[-1,2]
+    if (length(CoefBoot)==length(CoefObs)){
+       TestStatBoot[i,] <- (CoefBoot-CoefObs)/SEBoot
+    }
+ }

TestStatBootТ^Ткритик.α=0,05Т^Ткритик.

iТi^>Ткритик.

Останній крок можна виконати за допомогою цього коду

p.value<-0.05 # The target alpha threshold
digits<-1000000
library(gtools) # for binsearch

pValueFun<-function(cj)
{
   mean(apply(abs(TestStatBoot)>cj/digits,1,sum)>=1,na.rm=T)
}
ans<-binsearch(pValueFun,c(0.5*digits,100*digits),target=p.value)
p.level<-(1-pnorm(q=ans$where[[1]]/digits))*2 #two-sided.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.