Обрамлення негативного біноміального розподілу для послідовності ДНК


16

Негативний біноміальний розподіл став популярною моделлю для підрахунку даних (зокрема, очікуваної кількості зчитування послідовностей у певній області геному від заданого експерименту) у біоінформатиці. Пояснення варіюються:

  • Деякі пояснюють це як щось, що працює як розподіл Пуассона, але має додатковий параметр, що дозволяє більше свободи моделювати справжній розподіл, причому дисперсія не обов'язково дорівнює середній
  • Деякі пояснюють це як зважена суміш розподілів Пуассона (з розподілом гамма-змішування за параметром Пуассона)

Чи є спосіб побудувати ці обґрунтування традиційним визначенням негативного біноміального розподілу як моделювання кількості успіхів випробувань Бернуллі, перш ніж побачити певну кількість невдач? Або я повинен просто вважати це щасливим збігом обставин, що зважена суміш розподілів Пуассона з розподілом змішування гамма має таку ж функцію масової ймовірності, що і негативна двочлен?


2
Це також складений розподіл Пуассона, де ви підсумовуєте розподілене Пуассоном число логарифмічних випадкових величин.
Дуглас Заре

Відповіді:


8

IMOH, я дійсно думаю, що негативний біноміальний розподіл використовується для зручності.

Отже, у РНК-послідовності є загальне припущення, що якщо зробити нескінченну кількість вимірювань одного і того ж гена у нескінченному числі реплік, то справжній розподіл був би ненормальним. Потім цей розподіл відбирають за допомогою процесу Пуассона (з підрахунком), тож справжній розподіл зчитується на ген через репліки - би був пуассоно-лонормальним розподілом.

Але в пакетах, які ми використовуємо, такі як EdgeR і DESeq, цей розподіл моделювався як негативний біноміальний розподіл. Це не тому, що хлопці, які це написали, не знали про розповсюдження Пуассона.

Це тому, що розподіл Poisson Lognormal - це жахлива річ, з якою потрібно працювати, оскільки для його виконання потрібна чисельна інтеграція, тому, коли ви насправді намагаєтеся використовувати його, часом ефективність дійсно погана.

Негативний біноміальний розподіл має закриту форму, тому з ним набагато простіше працювати, а розподіл гамми (базовий розподіл) дуже схожий на лонормальний розподіл тим, що він часом виглядає нормальним, а іноді має хвостик.

Але в цьому прикладі (якщо ви вірите припущенню), це теоретично не може бути правильним, оскільки теоретично правильний розподіл є логічним значенням Пуассона, і два розподіли є розумними наближеннями один до одного, але не є рівнозначними.

Але я все ж думаю, що «неправильний» негативний біноміальний розподіл часто є кращим вибором, оскільки емпірично це дасть кращі результати, оскільки інтеграція працює повільно, а пристосування можуть працювати погано, особливо при розподілі з довгими хвостами.


7

rαβ

r

  1. αα+βNB(r,αα+β)

  2. trrΓ(r,1/β).tr=λ/αtrPois(λ).r

Це пояснює, чому ці розподіли рівні.


2

Я можу запропонувати лише інтуїцію, але сам розподіл гами описує (безперервні) терміни очікування (скільки часу потрібно, щоб відбулася рідкісна подія). Тож факт, що гамма-розподілена суміш дискретних розподілів пуассону призвела б до дискретного часу очікування (випробування до N збоїв), не здається надто дивним. Я сподіваюся, що хтось має більш формальну відповідь.

Редагувати: Я завжди виправдовував негативний біноміальний дист. для секвенування наступним чином: Справжній крок послідовності - це просто відбір зчитування з великої бібліотеки молекул (пуассона). Однак ця бібліотека виготовлена ​​з оригінального зразка методом ПЛР. Це означає, що вихідні молекули посилюються експоненціально. І гамма-розподіл описує суму k незалежних експоненціально розподілених випадкових змінних, тобто скільки молекул у бібліотеці після ампліфікації k молекул вибірки для тієї ж кількості циклів ПЛР.

Звідси негативна біноміальна модель ПЛР з подальшим послідовністю.


Це має сенс, але в контексті вимірювання кількості прочитаних послідовностей у геномі є інтуїтивне пояснення того, що являє собою період очікування в негативному біноміальному розподілі? У цьому випадку немає періоду очікування - він просто вимірює кількість послідовних читань.
RobertF

Дивіться мою редакцію. Я не бачу, як думка про це щодо термінів очікування відповідає параметру послідовності. Суміш гамма-пуассона простіше інтерпретувати. Але зрештою вони те саме.
Фелікс Шлезінгер

2
Гаразд - то, можливо, справжнє питання полягає в тому, за яким збігом моделювання k успіхів + невдач у випробуваннях Бернуллі слідкує за сумішшю гамма Пуассона? Можливо, негативне біноміальне моделювання k успіхів + невдач можна вважати перерозподіленим Poisson dbn через безліч можливих перестановок випробувань на успіх і невдачу, що призводять до точно k спостережених успіхів і r спостережуваних збоїв, які можна описати як сукупність окремі dbns?
RobertF

2

Я спробую дати спрощену механістичну інтерпретацію, яку я вважав корисною, думаючи про це.

μpμ1ppNB(μ1pp,p)

μ1ppp1p=μσ2=μ(1p)1

(1p)1

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.