11

Я намагаюся обернути голову навколо цієї проблеми.
Штамп котиться 100 разів. Яка ймовірність того, що жодне обличчя не з’явиться більше 20 разів? Першою моєю думкою було використання розподілу біномів P (x) = 1 - 6 cmf (100, 1/6, 20), але це, очевидно, неправильно, оскільки ми рахуємо деякі випадки не один раз. Моя друга ідея - перерахувати всі можливі рулони x1 + x2 + x3 + x4 + x5 + x6 = 100, так що xi <= 20 та підсумовувати багаточлени, але це здається занадто обчислювально інтенсивним. Приблизні рішення також будуть працювати для мене.

— Анонімний
джерело

13

Це узагальнення відомої проблеми з днем народження : з урахуванням осіб, які мають випадкові, рівномірно розподілені "дні народження" серед безлічі можливостей, який шанс, що жоден день народження не поділяється більше осіб? $n=100$ $d=6$ $m=20$

Точний розрахунок дає відповідь (з подвоєною точністю). Я буду замалювати теорію і навести код для загальних Асимптотичний час коду - що робить його придатним для дуже великої кількості днів народження і забезпечує розумну продуктивність, поки стане тисячами. Тоді наближення Пуассона, обговорене під час розширення парадокса дня народження до більш ніж 2 людей, повинно працювати в більшості випадків. $0.267\,747\,907\,805\,267$ $n, m, d.$ $O(n^2\log(d))$ $d$ $n$

Пояснення рішення

Функція, що генерує ймовірність (pgf) для результатів незалежних рулонів однобічного штампу, є $n$ $d$

г^{- н} f_{н} (х_{1}, х_{2}, \dots, х_{г}) = г^{- н} (х_{1} + х_{2} + \dots + х_{г})^{н} .

$d^{-n}f_n(x_1,x_2,\ldots,x_d) = d^{-n}(x_1+x_2+ \cdots + x_d)^n.$

Коефіцієнт при розширенні цього мультиномії дає кількість способів, за якими обличчя може відображатися саме разів, $x_1^{e_1}x_2^{e_2}\cdots x_d^{e_d}$ $i$ $e_i$ $i=1, 2, \ldots, d.$

Обмеження нашої зацікавленості не більш ніж появою будь-яким обличчям рівнозначно оцінюванню modulo ідеального породжував Для проведення цієї оцінки використовуйте теорему бінома рекурсивно для отримання $m$ $f_n$ $\mathcal I$ $x_1^{m+1}, x_2^{m+1}, \ldots, x_d^{m+1}.$

\begin{aligned} f_{н} (х_{1}, \dots, х_{г}) & = ((х_{1} + \dots + х_{r}) + (х_{r + 1} + х_{r + 2} + \dots + х_{2 r}))^{н} \\ = \sum_{к = 0}^{н} (\binom{н}{к}) (х_{1} + \dots + х_{r})^{к} (х_{r + 1} + \dots + х_{2 r})^{н - к} \\ = \sum_{к = 0}^{н} (\binom{н}{к}) f_{к} (х_{1}, \dots, х_{r}) f_{н - к} (х_{r + 1}, \dots, х_{2 r}) \end{aligned}

$\eqalign{ f_n(x_1, \ldots, x_d) &= ((x_1+\cdots+x_r) + (x_{r+1}+x_{r+2} + \cdots + x_{2r}))^n \\ &= \sum_{k=0}^n \binom{n}{k} (x_1+\cdots+x_r)^k (x_{r+1}+\cdots+x_{2r})^{n-k} \\ &= \sum_{k=0}^n \binom{n}{k} f_k(x_1, \ldots, x_r) f_{n-k}(x_{r+1}, \ldots, x_{2r}) }$

коли парне. Записуючи ( терміни), маємо $d=2r$ $f_n^{(d)} = f_n(1,1,\ldots, 1)$ $d$

\begin{matrix} (а) & f_{н}^{(2 r)} = \sum_{к = 0}^{н} (\binom{н}{к}) f_{к}^{(r)} f_{н - к}^{(r)} . \end{matrix}

$f_n^{(2r)} = \sum_{k=0}^n \binom{n}{k} f_k^{(r)} f_{n-k}^{(r)}.\tag{a}$

Коли непарне, використовуйте аналогічне розкладання $d=2r+1$

\begin{aligned} f_{н} (х_{1}, \dots, х_{г}) & = ((х_{1} + \dots + х_{2 r}) + х_{2 r + 1})^{н} \\ = \sum_{к = 0}^{н} (\binom{н}{к}) f_{к} (х_{1}, \dots, х_{2 r}) f_{н - к} (х_{2 r + 1}), \end{aligned}

$\eqalign{ f_n(x_1, \ldots, x_d) &= ((x_1+\cdots+x_{2r}) + x_{2r+1})^n \\ &= \sum_{k=0}^n \binom{n}{k} f_k(x_1, \ldots, x_{2r}) f_{n-k}(x_{2r+1}), }$

давання

\begin{matrix} (b) & f_{н}^{(2 r + 1)} = \sum_{к = 0}^{н} (\binom{н}{к}) f_{к}^{(2 r)} f_{н - к}^{(1)} . \end{matrix}

$f_n^{(2r+1)} = \sum_{k=0}^n \binom{n}{k} f_k^{(2r)} f_{n-k}^{(1)}.\tag{b}$

В обох випадках ми можемо також зменшити все модуль , що легко виконується починаючи з $\mathcal I$

f_{н} (х_{j}) ≅ {\begin{matrix} х^{н} & н \leq м \\ 0 & н > м \end{matrix} мод Я,

$f_n(x_j) \cong \left\{ \matrix{x^n & n \le m \\ 0 & n \gt m} \right. \mod \mathcal{I},$

забезпечення вихідних значень для рекурсії,

f_{н}^{(1)} = {\begin{matrix} 1 & н \leq м \\ 0 & н > м \end{matrix}

$f_n^{(1)} = \left\{ \matrix{1 & n \le m \\ 0 & n \gt m} \right.$

Це робить це ефективним тим, що розбиваючи змінні на дві однакові за розміром групи змінних і встановлюючи всі значення змінних до нам потрібно лише оцінити все один раз для однієї групи, а потім об'єднати результати. Для цього потрібні обчислення до доданків, кожен з яких потребує обчислення для комбінації. Нам навіть не потрібен 2D-масив для зберігання , тому що при обчисленні потрібні лише і . $d$ $r$ $1,$ $n+1$ $O(n)$ $f_n^{(r)}$ $f_n^{(d)},$ $f_n^{(r)}$ $f_n^{(1)}$

Загальна кількість кроків на одну меншу, ніж кількість цифр у двійковому розширенні (яка рахує розбиття на рівні групи у формулі ) плюс кількість одиниць розширення (що рахує всі рази непарні значення зустрічається, що вимагає застосування формули ). Це все-таки лише кроки . $d$ $(a)$ $(b)$ $O(\log(d))$

На Rробочій станції десятиліття робота була виконана за 0,007 секунд. Код вказано в кінці цієї публікації. Він використовує логарифми ймовірностей, а не самі ймовірності, щоб уникнути можливих переливів або накопичення занадто великого переливу. Це дає змогу видалити фактор у рішенні, щоб ми могли обчислити підрахунки, що лежать в основі ймовірностей. $d^{-n}$

Зауважимо, що ця процедура призводить до обчислення всієї послідовності ймовірностей одразу, що легко дозволяє нам вивчити, як шанси змінюються при . $f_0, f_1, \ldots, f_n$ $n$

Програми

Розподіл в узагальненій задачі про день народження обчислюється функцією tmultinom.full. Єдине завдання полягає у пошуку верхньої межі кількості людей, які повинні бути присутніми, перш ніж шанс зіткнення стане надто великим. Наступний код робить це грубою силою, починаючи з малого і подвоюючи його, поки він не буде достатньо великим. Тому весь розрахунок займає час де - рішення. Обчислюється весь розподіл ймовірностей на кількість людей, що перевищують . $m+1$ $n$ $O(n^2\log(n)\log(d))$ $n$ $n$

#
# The birthday problem: find the number of people where the chance of
# a collision of `m+1` birthdays first exceeds `alpha`.
#
birthday <- function(m=1, d=365, alpha=0.50) {
  n <- 8
  while((p <- tmultinom.full(n, m, d))[n] > alpha) n <- n * 2
  return(p)
}

Як приклад, мінімальна кількість людей, необхідних у натовпі, щоб зробити більш імовірним, ніж щонайменше вісім з них поділяють день народження, - , як видно з розрахунку . Це займає всього пару секунд. Ось сюжет частини результату: $798$ birthday(7)

Спеціальна версія цієї проблеми розглядається в подовженні парадоксу дня народження більш ніж 2 -х чоловік , який стосується випадку односторонній штампи , який розгортають дуже велика кількість раз. $365$

Код

# Compute the chance that in `n` independent rolls of a `d`-sided die, 
# no side appears more than `m` times.
#
tmultinom <- function(n, m, d, count=FALSE) tmultinom.full(n, m, d, count)[n+1]
#
# Compute the chances that in 0, 1, 2, ..., `n` independent rolls of a
# `d`-sided die, no side appears more than `m` times.
#
tmultinom.full <- function(n, m, d, count=FALSE) {
  if (n < 0) return(numeric(0))
  one <- rep(1.0, n+1); names(one) <- 0:n
  if (d <= 0 || m >= n) return(one)

  if(count) log.p <- 0 else log.p <- -log(d)
  f <- function(n, m, d) {                   # The recursive solution
    if (d==1) return(one)                    # Base case
    r <- floor(d/2)
    x <- double(f(n, m, r), m)               # Combine two equal values
    if (2*r < d) x <- combine(x, one, m)     # Treat odd `d`
    return(x)
  }
  one <- c(log.p*(0:m), rep(-Inf, n-m))      # Reduction modulo x^(m+1)
  double <- function(x, m) combine(x, x, m)
  combine <- function(x, y, m) {             # The Binomial Theorem
    z <- sapply(1:length(x), function(n) {   # Need all powers 0..n
      z <- x[1:n] + lchoose(n-1, 1:n-1) + y[n:1]
      z.max <- max(z)
      log(sum(exp(z - z.max), na.rm=TRUE)) + z.max
    })
    return(z)
  }
  x <- exp(f(n, m, d)); names(x) <- 0:n
  return(x)
}

Відповідь отримуємо за допомогою

print(tmultinom(100,20,6), digits=15)

0,267747907805267

— дзижчати
джерело

4

Випадковий метод вибірки

Я запустив цей код у R, повторюючи 100 закидів у мільйон разів:

y <- копія (1000000, всі (таблиця (зразок (1: 6, розмір = 100, заміна = ІСТИНА)) <= 20))

Виведення коду всередині функції репліка вірно, якщо всі грані відображаються менше або рівні 20 разів. y - вектор з 1 мільйоном значень істинного або хибного.

Загальна ні. істинних значень у y, розділених на 1 мільйон, має бути приблизно рівним бажаній вам ймовірності. У моєму випадку це було 266872/1000000, що передбачає ймовірність приблизно 26,6%

— Вайбхав
джерело

3

Виходячи з ОП, я думаю, що це повинно бути <= 20, а не <20

— клумба

1

Я редагував публікацію (вдруге), оскільки розміщення примітки про редагування іноді менш зрозуміло, ніж редагування всієї публікації. Не соромтеся повернути його, якщо ви вважаєте, що корисно зберегти слід історії. meta.stackexchange.com/questions/127639/…

— Секст

4

Розрахунок грубої сили

Цей код займає кілька секунд на моєму ноутбуці

total = 0
pb <- txtProgressBar(min = 0, max = 20^2, style = 3)
for (i in 0:20) {
  for (j in 0:20) {
    for (k in 0:20) { 
      for (l in 0:20) {
        for (m in 0:20) {
          n = 100-sum(i,j,k,l,m)
          if (n<=20) {
            total = total+dmultinom(c(i,j,k,l,m,n),100,prob=rep(1/6,6))
          }
        }
      }
    }
    setTxtProgressBar(pb, i*20+j) # update progression bar            
  }
}
total

вихід: 0,2677479

Але все ж може бути цікавим знайти більш прямий метод у випадку, якщо ви хочете зробити багато цих розрахунків або використовувати більш високі значення, або просто заради отримання більш елегантного методу.

Принаймні, це обчислення дає спрощено обчислене, але дійсне число для перевірки інших (більш складних) методів.

— Секст Емпірік
джерело

Помер 100 рулонів без обличчя, з'явившись більше 20 разів

Пояснення рішення

Програми

Код

Випадковий метод вибірки

Розрахунок грубої сили