Ймовірність знаходження певної послідовності пар основ


10

Думка про вірогідність завжди змушує усвідомити, наскільки я поганий у підрахунку ...

Розглянемо послідовність n основних літер A,T,C, and G , коженрівній мірі можуть з'явитися. Яка ймовірність, що ця послідовність містить певну послідовність базових пар, що представляють інтерес довжиниrn ?

Можливі 4n різних (однаково вірогідних) послідовностей. Почніть із цікавої послідовності на початку повної послідовності; 4nr послідовності можливі. Ми можемо розпочати нашу послідовність інтересів у n+1r різних місцях. Отже, моя відповідь (n+1r)/4r .

Ця ймовірність зростає в n , що для мене є сенсом. Але ця ймовірність перевищує 1, коли n>4r+r1 . Але цього не може бути. Ймовірність повинна наближатися до 1 у межах (мені здається), але не перевищувати її.

Я припускаю, що я подвійно рахую щось. Що я пропускаю? Дякую.

(FYI, а не домашнє завдання, лише іграшковий приклад під час підготовки до іспитів. Питання, яке поставив мій друг молекулярного біолога.)


Це правильно щодо цього не повинно перевищувати одного, оскільки це порушило б аксіоми вірогідності: books.google.com/…
Кріс Сімокат

1
(Смутно) пов’язано: stats.stackexchange.com/questions/12174/…
кардинал

Відповіді:


5

Розглянемо невелику версію цієї проблеми з . Який шанс, що послідовність з п'яти літер буде містити ціль A C G T ? Це легко: 4 - 4 всіх послідовностей починаються з цього рядка, ще 4 - 4 закінчуються ним, і жодна послідовність не починається і не закінчується цією рядком. Тому шанс становить 2 × 4 - 4 .n=5ACGT44442×44

З іншого боку, який шанс ? Ще раз, 4 - 4 послідовності починаються з цього рядка, однакові пропорції закінчуються цим рядком, і 4 - 5 всіх послідовностей виконують обидва . Тому за принципом включення-виключення відповідь 2 × 4 - 4 - 4 - 5 .AAAA44452×4445

Загалом відповідь залежить від структури підрядка. Щоб бути більш конкретним, коли ви скануєте рядок (зліва направо, наприклад) для , ви ігноруєте все символи до тих пір , поки не побачите , що початковий A . Після цього є три можливості: наступний символ - це відповідність для C , наступний - це не збіг для C, але не є A (значить, ви знову в стані очікування-на- A ), або наступний - невідповідний, але це A , що переводить вас у стан щойно побачив- A . Навпаки, розглянемо пошук A C T A C GACGTACCAAAAACTACG. Припустимо , що ви вже бачили префікс C T C . Наступний символ буде відповідати , якщо це G . Якщо це не збіг, (i) C позначає вас у початковому стані очікування для A , (ii) a A має вас спостерігати за C , і (iii) T означає, що ви вже бачили ... A C T і ти вже на півдорозі до матчу (і шукаєш другого A ). Відповідна "структура", очевидно, складається з шаблонів підрядків у цілі, які відповідають префіксу цілі. Ось чому шанси залежать від цільового рядка.ACTACGCAACTACTA

Діаграми FSA, які я прихиляюсь у відповіді під час Time, зробленої для удару по шаблону голови та хвостів у серії монет, можуть допомогти зрозуміти це явище.


3

Грубе наближення буде . Ви приймаєте ймовірність того, що ваша послідовність не виникає в певному місці, ставите її під силу кількості локацій (помилково припускаючи незалежність), яка n - r + 1 не n - r , і це наближення її не відбувається, тож вам потрібно відняти це від 1 . 1(11/4r)nr+1nr+1nr1

Точний розрахунок буде залежати від точної схеми, яку ви шукаєте. , Швидше за все, не відбувається , ніж A T C G T .AAAAAATCGT


Може бути , це тільки у мене, але здається трохи ясніше в плані розуміння того, як було побудовано рівняння. 1(1(1/4)r)n(r1)

@JoeRocc - я підозрюю, що це особисте. Якщо ви читаєте від до другої сторінки 400 книги, чи читали ви 400 - 300 + 1 = 101 сторінка або 400 - ( 300 - 1 ) = 101 сторінка? 300400400300+1=101400(3001)=101
Генрі

Не хвилюйтесь, я йшов лише своєю інтуїцією проблеми. Якщо ми інтуїтивно виводимо рівняння, яке буде , то, намагаючись пояснити його комусь, я думаю, що краще залишити його як таке, а не спрощувати його до a - b + c - 1 + d (хоча це, безумовно, може бути більш інтуїтивно зрозумілим). Ваша інтуїція, можливо, у будь-якому випадку відрізнялася :)(a(b(c1+d)))ab+c1+d

2

Ви подвійно підраховуєте послідовності, які включають кілька разів вашу цільову послідовність, наприклад, як у положенні A, так і в положенні B! = A. Ось чому ваша помилкова ймовірність може перевищувати 1


Дуже добре зроблено ! +1
Майкл Р. Черник

1

Отримати точну ймовірність конкретної сукупності можна, використовуючи ланцюгове представлення Маркова проблеми. Специфіка того, як побудувати ланцюг, залежить від конкретної послідовності інтересів, але я наведу пару прикладів, як це зробити.


Точна ймовірність через ланцюг Маркова: Розглянемо дискретну послідовність результатів A,T,C,G де результати в послідовності є обмінними, і припустимо, нас цікавить деяка підрядка довжиною k . Для будь-якого заданого значення n , нехай W бути подія , яка відбувається подстроку інтерес, і нехай Ha бути подією , що останні a результати є першим < K символів подстроки інтересів (але не більше , ніж це) . Ми використовуємо ці події, щоб дати наступний розділ k + 1a<kk+1 можливі стани інтересу:

State 0W¯H0,   State 1W¯H1,   State 2W¯H2,   State 3W¯H3,   State k1W¯Hk1,State kW.  

Оскільки послідовність результатів вважається замінною, ми маємо незалежні результати, що залежать від їх відповідних ймовірностей θA+θT+θC+θG=1 . Ваш інтересний процес може бути представлений як дискретні часові ланцюги Маркова, які починаються в State 0 при n=0 і переходять відповідно до матриці ймовірностей, що залежить від конкретного підрядка, що цікавить. Матриця переходу завжди буде a (k+1)×(k+1)матриця, що представляє ймовірності переходу з використанням вищезазначених станів. Якщо підрядка, що цікавить, не була досягнута, то кожен перехід може або наблизити вас на крок до підрядки, або може повернути вас до попереднього стану, що залежить від конкретної підрядки. Після досягнення підстрочки це стан поглинання ланцюга, що представляє факт, що відбулася подія, що цікавить.

Наприклад, якщо інтерес підрядок AAAAAA то матриця переходу:

P=[1θAθA000001θA0θA00001θA00θA0001θA000θA001θA0000θA01θA00000θA0000001.]

Навпаки, якщо підрядок, що цікавить, є ACTAGC то матриця переходу:

P=[1θAθA00001θAθCθAθC00001θAθTθA0θT0001θA000θA001θAθCθGθAθC00θG01θAθCθA0000θC0000001.]

nP(W|n)={Pn}0,kn<k


Rn

#Create function to give n-step transition matrix for n = 1...N
#We will use the example of the substring of interest "AAAAAA"

#a is the probability of A
#t is the probability of T
#c is the probability of C
#g is the probability of G
#N is the last value of n
PROB <- function(N,a,t,c,g) { TOT <- a+t+c+g;
                              a <- a/TOT; 
                              t <- t/TOT; 
                              c <- c/TOT; 
                              g <- g/TOT; 

                              P <- matrix(c(1-a, a, 0, 0, 0, 0, 0,
                                            1-a, 0, a, 0, 0, 0, 0,
                                            1-a, 0, 0, a, 0, 0, 0,
                                            1-a, 0, 0, 0, a, 0, 0,
                                            1-a, 0, 0, 0, 0, a, 0,
                                            1-a, 0, 0, 0, 0, 0, a,
                                              0, 0, 0, 0, 0, 0, 1),
                                          nrow = 7, ncol = 7, 
                                          byrow = TRUE);
                              PPP <- array(0, dim = c(7,7,N));
                              PPP[,,1] <- P;
                              for (n in 2:N) { PPP[,,n] <- PPP[,,n-1] %*% P; } 
                              PPP }

#Calculate probability for N = 100 for equiprobable outcomes
N <- 100;
a <- 1/4;
t <- 1/4;
c <- 1/4;
g <- 1/4;
PROB(N,a,t,c,g)[1,7,N];

[1] 0.01732435

AAAAAAn=1000.01732435

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.