Сподіваюся, хтось на цих форумах може допомогти мені вирішити цю основну проблему в дослідженнях експресії генів.
Я зробив глибоке секвенування експериментальної та контрольної тканини. Потім я отримав значення кратного збагачення генів в експериментальному зразку над контролем. Референтний геном має ~ 15 000 генів. 3 000 з 15 000 генів збагатилися вище певного відрізку в моїй вибірці, що цікавить, порівняно з контролем.
Отже: A = загальна популяція генів = 15 000 B = РНК-Seq, збагачена субпопуляцією = 3000.
У попередньому експерименті ChIP-чіпа я знайшов 400 генів, які збагачені ChIP-чіпом. З 400 генів ChIP-чіпа 100 генів входять до групи з 3 000 стенограмами, збагаченими RNA-Seq.
Отже: C = загальна кількість збагачених ChIP-чіпами генів = 400.
Яка ймовірність того, що мої 100 ChIP-чіп-генів будуть випадково збагачені RNA-Seq? Іншими словами, який найбільш розумний спосіб обчислити, чи моє спостережуване перекриття між B і C (100 генів) є кращим, ніж те, яке отримано випадково? З того, що я читав до цього часу, найкращий спосіб перевірити це - за допомогою гіпергеометричного розподілу.
Я використовував онлайн-калькулятор (stattrek.com) для встановлення гіпергеометричного тесту на розподіл із такими параметрами: - розмір попу = 15 000 - # успіхів у кількості населення = 3 000 - розмір вибірки = 400, - # успіхів у вибірці = 100. Я отримую наступне для гіпергеометричної ймовірності P (x = 100) = 0,00224050636447747
Дійсна кількість генів, що перетинаються між B і C = 100. Це краще, ніж випадково? Це не виглядає так, як якщо шанс будь-якого гена збагатитися становить 1: 5 (3 000 з 15 000). Тому я не розумію, звідки мій P (x = 100), який я обчислював вище, становить 0,0022. Це становить 0,2% шансу, що перекриття відбудеться випадково. Чи не повинно це бути набагато вище?
Якби я відібрав 400 випадкових генів із великого списку з 15 000, то, як очікується, будь-які 80 з цих генів будуть збагачені випадково (1: 5). Кількість генів, які насправді перекриваються, становить 100, тому це просто трохи краще, ніж випадково.
Я також спробував придумати рішення, використовуючи функції dhyper або phyper в R (використовуючи те, що я бачив в іншій публікації): A = всі гени в геномі (15 000) B = гени, збагачені RNA-Seq (3 000) C = ChIP гени, збагачені чіпами (400) Ось вхід / вихід R (адаптований з попереднього повідомлення про stackexchange):
> totalpop <- 15000
> sample1 <- 3000
> sample2 <- 400
> dhyper(0:2, sample1, totalpop-sample1, sample2)
[1] 4.431784e-40 4.584209e-38 2.364018e-36
> phyper(-1:2, sample1, totalpop-sample1, sample2)
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36
Я не впевнений, як інтерпретувати ці цифри. Я вважаю, 2.36e-36 - це ймовірність отримання повного перекриття між B і C випадково? Але це не має сенсу, оскільки ця ймовірність набагато ближче до 1: 5. Якщо я почну з 15 000 генів, 3000 збагатяться. Точно так само, якщо я розпочну з 400 генів ChIP-чіпів, 80 з них мають бути збагачені лише в RNA-Seq через шанси на збагачення в цьому наборі даних 1: 5.
Який правильний спосіб обчислити р-значення відповідно до гіпергеометричного розподілу для перекриття B і C?