Ймовірність перетину від багаторазового відбору проб однієї сукупності


10

Ось приклад випадку:

  • У мене населення 10 000 предметів. Кожен елемент має унікальний ідентифікатор.
  • Я випадковим чином вибираю 100 предметів і записую ідентифікатори
  • Я повернув 100 предметів назад серед населення
  • Я випадковим чином знову вибираю 100 предметів, записую ідентифікатори та замінюю.
  • Загалом я повторюю цю випадкову вибірку 5 разів

Яка ймовірність того X кількість елементів з’являється у всіх 5 випадкових вибірках?

Я не дуже добре розбираюся в статистиці. Чи було б це правильноX=10?

  • Для кожної вибірки кількість можливих комбінацій 100 предметів із 10000 становить binom(10000,100)
  • З усіх можливих комбінацій 100 предметів, binom(9990,90)binom(100,10) комбінації містять 10 конкретних елементів
  • Ймовірність наявності 10 конкретних предметів є (binom(9990,90)binom(100,10))/binom(10000,100)
  • Розрахована ймовірність до потужності 5 представляла б 5 невизначених вибірок.

Тож по суті ми просто обчислюємо 5 незалежних гіпергеометричних ймовірностей, а потім множимо їх разом? Я відчуваю, що десь пропускаю крок.


3
Якщо ви щось повторите один раз, це означає, що ви робите це два рази за все. Якщо повторення чогось 5 разів не означає, що ви робите це 6 разів?
Glen_b -Встановіть Моніку

Відповіді:


3

Обчислюйте шанси рекурсивно.

Дозволяє ps(x) бути ймовірністю, що саме x значення, 0xk, обрані в усіх s1 незалежні розіграші k предметів (без заміни) від населення Росії nk>0члени. (Тримаємосьn і k фіксовано протягом тривалості аналізу, тому їх не потрібно чітко згадувати.)

Дозволяє ps(xy) бути ймовірністю, що якщо точно y значення вибираються в першому s1 малює, значить xyз них обрані в останньому розіграші. Тоді , тому що є підмножин елементів тих елементів, а підмножини залишилися елементів по окремо вибрані з іншого членів населення,(yx)xy(nykx)kxny

ps(xy)=(yx)(nykx)(nk).

Закон стверджує повну ймовірність

ps(x)=y=xkps(xy)ps1(y).

Для визначено, що : це початковий розподіл.s=1x=k

Загальна кількість обчислень, необхідних для повного розподілу вгору через повторень, становить . Мало того, що досить швидко, алгоритм простий. Однією з неполадок, які очікують на неохайного програміста, є те, що ці ймовірності можуть стати надзвичайно малі та піддаються обчисленням з плаваючою комою. Наступна реалізація уникає цього шляхом обчислення значень у стовпцях масиву.sO(k2s)Rlog(ps(x))1,2,,s

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

Відповідь на запитання отримуємо, довівши , і . s=5, n=10000=104k=100=102 Вихід - це масив , але більшість чисел настільки малі, що ми можемо зосередитись на дуже малому . Ось перші чотири рядки, що відповідають :101×5xx=0,1,2,3

p(5, 1e4, 1e2)[1:4, ]

Вихід є

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

Значення позначають рядки, а значення позначають стовпці. У колонці 5 показано ймовірність того, що один елемент з’являється у всіх п'яти зразках - мізерний (приблизно один на мільйон), і по суті немає жодного шансу, що два чи більше елементів з’являться у всіх п’яти зразках.xs

Якщо ви хочете побачити, наскільки малі ці шанси, подивіться на їх логарифми. База 10 зручна, і нам не потрібно багато цифр:

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

Вихід показує нам, скільки нулів є після десяткової крапки:

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0 

Числа у верхньому ряду - це значення . Наприклад, шанс рівно трьох значень, виявлених у всіх п’яти вибірках, виявляється обчисленням , даючи і справді це нулів перед перша значна цифра. Як чек, останнє значення - це округла версія . (що рахує шанси на те, що перший зразок з'явиться у наступних чотирьох зразках) дорівнюєxexp(u[4])0.000000000000000000143441918967.0967.26(10000100)410967.26.


0

Я просто зіткнувся з подібною проблемою і, хоча я також не знаю, чи це правильне рішення, підійшов до цього так:

Вас цікавить поява предметів у 5 зразках - предметів із предметів. Ви могли б думати про урну з білих куль і чорних куль. кульок, а - це ймовірність того, що у вас є всі білі кульки. Якщо ви зробите це разів (незалежно), я б помножив це: .X10010,000X10,000X100phX5p=ph5

Я навіть міг би подумати про крок далі і обернути його навколо біноміального розподілу: Якщо у вас є монета, яка приходить в голову з вірогідністю (ймовірність того, що у вас є всі предмети у вашому наборі), і ви кидаєте її в разів, що таке ймовірність отримати голів? .ph55p=(55)ph5(1ph)55=ph5


0

Яка ймовірність того, що кількість предметів з'явиться у всіх 5 випадкових вибірках?X

Спираючись на те, що сказав Ганс, ви хочете завжди отримувати однакові ідентифікатори у кожному зразку з 100 та 100- ідентифікаторами з-поміж решти 10000- . Ймовірність зробити це для даного зразка задається гіпергеометричною функцією для успіхів в розіграші 100 з 10000 населення з можливими станами успіху: . Для 5 зразків ви б взяли .XXXXXP=(XX)(10000X100X)(10000100)P5

Однак, ми припускаємо, що знаємо, ідентифікатори якими вони поділяються, і є способів вибору цих ідентифікаторівОтже, ваша остаточна відповідь буде .X(10000X)X(10000X)P5


Що таке " "? Неможливо зрозуміти цю відповідь, тим більше перевірити її, поки не розкриєш це! x
whuber

Я не пам'ятаю, як це було 3 роки тому, але, мабуть, такий самий Х, як у питанні?
Hao Ye

ДОБРЕ. Але що виправдовує вашу формулу? Прості перевірки, такі як випадок (для якої ваша формула повідомляє нам, що ймовірність дорівнює , тим самим повністю виключаючи будь-які інші можливості!), Вказують на неправильність. X=01
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.