Обчислення ймовірності перекриття списку генів між послідовністю РНК та набором даних ChIP-чіпа

13

Сподіваюся, хтось на цих форумах може допомогти мені вирішити цю основну проблему в дослідженнях експресії генів.

Я зробив глибоке секвенування експериментальної та контрольної тканини. Потім я отримав значення кратного збагачення генів в експериментальному зразку над контролем. Референтний геном має ~ 15 000 генів. 3 000 з 15 000 генів збагатилися вище певного відрізку в моїй вибірці, що цікавить, порівняно з контролем.

Отже: A = загальна популяція генів = 15 000 B = РНК-Seq, збагачена субпопуляцією = 3000.

У попередньому експерименті ChIP-чіпа я знайшов 400 генів, які збагачені ChIP-чіпом. З 400 генів ChIP-чіпа 100 генів входять до групи з 3 000 стенограмами, збагаченими RNA-Seq.

Отже: C = загальна кількість збагачених ChIP-чіпами генів = 400.

Яка ймовірність того, що мої 100 ChIP-чіп-генів будуть випадково збагачені RNA-Seq? Іншими словами, який найбільш розумний спосіб обчислити, чи моє спостережуване перекриття між B і C (100 генів) є кращим, ніж те, яке отримано випадково? З того, що я читав до цього часу, найкращий спосіб перевірити це - за допомогою гіпергеометричного розподілу.

Я використовував онлайн-калькулятор (stattrek.com) для встановлення гіпергеометричного тесту на розподіл із такими параметрами: - розмір попу = 15 000 - # успіхів у кількості населення = 3 000 - розмір вибірки = 400, - # успіхів у вибірці = 100. Я отримую наступне для гіпергеометричної ймовірності P (x = 100) = 0,00224050636447747

Дійсна кількість генів, що перетинаються між B і C = 100. Це краще, ніж випадково? Це не виглядає так, як якщо шанс будь-якого гена збагатитися становить 1: 5 (3 000 з 15 000). Тому я не розумію, звідки мій P (x = 100), який я обчислював вище, становить 0,0022. Це становить 0,2% шансу, що перекриття відбудеться випадково. Чи не повинно це бути набагато вище?

Якби я відібрав 400 випадкових генів із великого списку з 15 000, то, як очікується, будь-які 80 з цих генів будуть збагачені випадково (1: 5). Кількість генів, які насправді перекриваються, становить 100, тому це просто трохи краще, ніж випадково.

Я також спробував придумати рішення, використовуючи функції dhyper або phyper в R (використовуючи те, що я бачив в іншій публікації): A = всі гени в геномі (15 000) B = гени, збагачені RNA-Seq (3 000) C = ChIP гени, збагачені чіпами (400) Ось вхід / вихід R (адаптований з попереднього повідомлення про stackexchange):

> totalpop <- 15000    
> sample1 <- 3000    
> sample2 <- 400    
> dhyper(0:2, sample1, totalpop-sample1, sample2)    
[1] 4.431784e-40 4.584209e-38 2.364018e-36    
> phyper(-1:2, sample1, totalpop-sample1, sample2)    
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36

Я не впевнений, як інтерпретувати ці цифри. Я вважаю, 2.36e-36 - це ймовірність отримання повного перекриття між B і C випадково? Але це не має сенсу, оскільки ця ймовірність набагато ближче до 1: 5. Якщо я почну з 15 000 генів, 3000 збагатяться. Точно так само, якщо я розпочну з 400 генів ChIP-чіпів, 80 з них мають бути збагачені лише в RNA-Seq через шанси на збагачення в цьому наборі даних 1: 5.

Який правильний спосіб обчислити р-значення відповідно до гіпергеометричного розподілу для перекриття B і C?

— stlandroidfan
джерело

15

Ви близькі, з вашим використанням dhyperі phyper, але я не розумію, звідки 0:2і звідки -1:2беруться.

Значення р, яке ви бажаєте, - це ймовірність отримання 100 або більше білих куль у вибірці розміром 400 з урни з 3000 білими кулями та 12000 чорних кульок. Ось чотири способи його обчислення.

sum(dhyper(100:400, 3000, 12000, 400))
1 - sum(dhyper(0:99, 3000, 12000, 400))
phyper(99, 3000, 12000, 400, lower.tail=FALSE)
1-phyper(99, 3000, 12000, 400)

Вони дають 0,0078.

dhyper(x, m, n, k)дає ймовірність малювання точно x. У першому рядку ми підсумовуємо ймовірності за 100 - 400; у другому рядку беремо 1 мінус суму ймовірностей 0 - 99.

phyper(x, m, n, k)дає ймовірність отримати xабо менше, так phyper(x, m, n, k)само як sum(dhyper(0:x, m, n, k)).

Це lower.tail=FALSEтрохи заплутано. phyper(x, m, n, k, lower.tail=FALSE)це те саме 1-phyper(x, m, n, k), що і так само є ймовірність x+1або більше. [Я ніколи цього не пам'ятаю і тому завжди доводиться двічі перевіряти.]

На цьому сайті stattrek.com потрібно переглянути останній рядок "Сукупна ймовірність: P (X 100)", а не перший рядок "Гіпергеометрична ймовірність: P (X = 100)." $\ge$

Будь-яке конкретне число, яке ви намалюєте, матиме малу ймовірність (насправді max(dhyper(0:400, 3000, 12000, 400))дає 0,050), а отримання 101 або 102 або будь-якого більшого числа ще цікавіше, ніж 100, а значення p - це ймовірність, якщо нуль гіпотеза була правдивою, що результат отриманий як цікавіший, чи більше, ніж той, що спостерігався. $\sim$

Ось картина гіпергеометричного розподілу в даному випадку. Ви можете бачити, що він орієнтований на 80 (20% від 400) і що 100 досить далеко у правій хвіст. введіть тут опис зображення

— Карл
джерело

Дякую купу за вашу допомогу. Я розумію логіку вашої відповіді. Але як я поясню групі біологів, що це більше, ніж перекриття, яке спостерігається лише через випадковість? Вони скажуть, що у мене є шанс перекриття 1: 5. Чи є моє перекриття суттєвим, оскільки у розмірі вибірки 400 кульок (з 15 000 загальних кульок) мій шанс отримати білий куля насправді нижчий за 1: 5, оскільки я беру на вибірку меншу сукупність (не всю 15 000)? Це не має сенсу, оскільки, хоча 400 <15 000, все ще існує співвідношення 1: 5 білого: чорного. Це має сенс?

— stlandroidfan

@stlandroidfan - я не розумію, що вас бентежить. Я додав фігуру; чи допомагає це?

— Карл

0

Подивіться на це так .. Якщо ви вважали це двочленним, що може бути невірним, але воно повинно бути досить приблизним .. ваша сигма ^ 2 дорівнює .8 * .2 * 400 = 64, то сигма = 8. Отже від 80 до 100 ви пройшли 2,5 стандартних відхилень. Це досить суттєво. Це повинно мати невелике p-значення.

— Адам
джерело

Дякую за вашу відповідь. Гіпергеометричні розподіли частіше використовуються для перекриття списку генів, ніж я бачив у літературі. Питання полягає в тому, яка ймовірність отримати 100 або більше білих куль у вибірці розміром 400 з урни з 3000 білими кулями та 12000 чорних кульок? Я думаю, що я все ще здивований тим, як пояснити це купі біологів? Те, як вони бачать це 3000: 12000, є шансом 1: 5 на білий: чорний. Тож у вибірці 400, 80 має бути білим. То звідки ймовірність отримати 100 і більше настільки нижча, ніж 20% (1 на 5)?

— stlandroidfan