Очікувана кількість разів котити штамп, поки кожна сторона не з’явилася 3 рази

15

Яка очікувана кількість разів, коли потрібно скочувати штамп, поки кожна сторона не з’явиться 3 рази?

Це питання задавали в початковій школі Нової Зеландії, і це було вирішено за допомогою моделювання. Яке аналітичне рішення цієї проблеми?

— Едгар Сантос
джерело

6

Оскільки результати рулонів є випадковими, заздалегідь неможливо дізнатися, скільки булочок потрібно. Якщо питання шукає, наприклад, очікувана кількість рулонів перед кожною стороною з'явилося 3 рази, це слід чітко вказати. У цьому випадку застосовується stats.stackexchange.com/tags/self-study/info .

— Юхо Коккала

3

Скажіть цим новозеландським дітям читати Нормана Л. Джонсона, Семюеля Коца, Н. Балакришнана "Дискретні багатовимірні розподіли" wiley.com/WileyCDA/WileyTitle/productCd-0471128449.html .

— Марк Л. Стоун

3

пов’язано: Як часто вам доводиться катати 6-сторонній штамп, щоб принаймні один раз отримати кожне число?

— Sycorax каже, що повернеться до Моніки

28

Припустимо, всі сторін мають рівні шанси. Давайте узагальнимо і знайдемо очікувану кількість рулонів, необхідних до тих пір, поки сторона не з’явиться разів, сторона з’явилася рази, ..., а сторона не з’явилася разів. Оскільки особистість сторін не має значення (всі вони мають однакові шанси), опис цієї мети може бути стислою: припустимо, що сторони взагалі не повинні з'являтися, з сторін повинен з'явитися тільки раз, ..., і $d=6$ $1$ $n_1$ $2$ $n_2$ $d$ $n_d$ $i_0$ $i_1$ $i_n$ сторони повинні бути разів. Нехай позначає цю ситуацію і записує для очікуваної кількості рулонів. Питання задає : $n=\max(n_1,n_2,\ldots,n_d)$

i = (i_{0}, i_{1}, \dots, i_{н})

$\mathbf{i}=(i_0,i_1,\ldots,i_n)$

е (i)

$e(\mathbf{i})$

e (0, 0, 0, 6)

$e(0,0,0,6)$

i_{3} = 6

$i_3 = 6$ означає, що всі шість сторін потрібно бачити по три рази кожна.

Простий рецидив доступний. У наступному рулоні сторона, що з'являється, відповідає одному з : тобто нам це не потрібно було бачити, або нам потрібно було його побачити один раз, ... або нам потрібно було побачити його більше разів. - кількість разів, яку нам потрібно було переглянути. $i_j$ $n$ $j$

Коли , нам не потрібно було його бачити, і нічого не змінюється. Це відбувається з ймовірністю . $j=0$ $i_0/d$
Коли тоді нам потрібно було бачити цю сторону. Тепер є ще одна менша сторона, яку потрібно бачити разів, і ще одна сторона, яку потрібно побачити раз. Таким чином, стає а стає . Нехай цю операцію на компонентах позначають , так що $j \gt 0$ $j$ $j-1$ $i_j$ $i_j-1$ $i_{j-1}$ $i_j+1$ $\mathbf{i}$ $\mathbf{i}\cdot j$

$i \cdot j = (i_{0}, \dots, i_{j - 2}, i_{j - 1} + 1, i_{j} - 1, i_{j + 1}, \dots, i_{н}) .$ $\mathbf{i}\cdot j = (\color{gray}{i_0, \ldots, i_{j-2}}, i_{j-1}+1, i_j-1, \color{gray}{i_{j+1},\ldots, i_n}).$
Це відбувається з ймовірністю . $i_j/d$

Нам просто потрібно порахувати цей ролик і скористатися рекурсією, щоб сказати, скільки ще булочок очікується. За законами очікування та повної ймовірності,

е (i) = 1 + \frac{i_{0}}{г} е (i) + \sum_{j = 1}^{н} \frac{i_{j}}{г} е (i \cdot j)

$e(\mathbf{i}) = 1 + \frac{i_0}{d}e(\mathbf{i}) + \sum_{j=1}^n \frac{i_j}{d}e(\mathbf{i}\cdot j)$

(Давайте зрозуміємо, що коли $i_j=0$ , відповідний доданок у сумі дорівнює нулю.)

Якщо , ми закінчили і . Інакше ми можемо вирішити для , даючи бажану рекурсивну формулу $i_0=d$ $e(\mathbf{i}) =0$ $e(\mathbf{i})$

\begin{matrix} (1) & e (i) = \frac{d + i_{1} e (i \cdot 1) + \dots + i_{n} e (i \cdot n)}{d - i_{0}} . \end{matrix}

$e(\mathbf{i}) = \frac{d + i_1 e(\mathbf{i}\cdot 1) + \cdots + i_n e(\mathbf{i}\cdot n)}{d - i_0}.\tag{1}$

Зауважте, що - загальна кількість подій, які ми хочемо побачити. Операція зменшує цю величину на одиницю для будь-якого умови , що завжди має місце. Тому ця рекурсія закінчується на глибині точно (дорівнює

| i | = 0 (i_{0}) + 1 (i_{1}) + \dots + н (i_{н})

$|\mathbf{i}| = 0(i_0) + 1(i_1) + \cdots + n(i_n)$

\cdot j

$\cdot j$

j > 0

$j\gt 0$

i_{j} > 0

$i_j \gt 0$

| i |

$|\mathbf{i}|$

не обчислюється більше одного разу).

3 (6) = 18

$3(6) = 18$ у питанні). Більше того (як це не важко перевірити) кількість можливостей на кожній глибині рекурсії в цьому питанні невелика (ніколи не перевищує

). Отже, це ефективний метод, принаймні тоді, коли комбінаторні можливості не надто численні, і ми запам'ятовуємо проміжні результати (так, що жодне значення

8

$8$

e

$e$

Я обчислюю, що

е (0, 0, 0, 6) = \frac{2 286 878 604 508 883}{69 984 000 000 000} \approx 32.677.

$e(0,0,0,6) = \frac{2\,286\,878\,604\,508\,883}{69\,984\,000\,000\,000}\approx 32.677.$

Це здалося мені жахливо малим, тому я запустив моделювання (використовуючи R). Після понад трьох мільйонів рулонів кісток цю гру до кінця зіграли понад 100 000 разів, середня довжина . Стандартна похибка цієї оцінки становить : різниця між цим середнім та теоретичним значенням незначна, що підтверджує точність теоретичного значення. $32.669$ $0.027$

Розподіл довжин може представляти інтерес. (Очевидно, що вона повинна починатися о , мінімальна кількість рулонів, необхідних для збору всіх шести боків три рази.) $18$

# Specify the problem
d <- 6   # Number of faces
k <- 3   # Number of times to see each
N <- 3.26772e6 # Number of rolls

# Simulate many rolls
set.seed(17)
x <- sample(1:d, N, replace=TRUE)

# Use these rolls to play the game repeatedly.
totals <- sapply(1:d, function(i) cumsum(x==i))
n <- 0
base <- rep(0, d)
i.last <- 0
n.list <- list()
for (i in 1:N) {
  if (min(totals[i, ] - base) >= k) {
    base <- totals[i, ]
    n <- n+1
    n.list[[n]] <- i - i.last
    i.last <- i
  }
}

# Summarize the results
sim <- unlist(n.list)
mean(sim)
sd(sim) / sqrt(length(sim))
length(sim)
hist(sim, main="Simulation results", xlab="Number of rolls", freq=FALSE, breaks=0:max(sim))

Впровадження

$e$ $e(\mathbf{i})$ $\mathbf{i}$ $\mathbf{i}$

R $\mathbf{i}$ E $\mathbf{i}\cdot j$ %.%

$e$

x <- (d + sum(sapply(1:n, function(i) j[i+1]*e.(j %.% i))))/(d - j[1])

$(1)$ $1$ R $1$ $0$ .

$0.01$ e(c(0,0,0,6))

32.6771634160506

Накопичена помилка округлення з плаваючою комою знищила дві останні цифри (що має бути, 68а не 06).

e <- function(i) {
  #
  # Create a data structure to "memoize" the values.
  #
  `[[<-.AA` <- function(x, i, value) {
    class(x) <- NULL
    x[[paste(i, collapse=",")]] <- value
    class(x) <- "AA"
    x
  }
  `[[.AA` <- function(x, i) {
    class(x) <- NULL
    x[[paste(i, collapse=",")]]
  }
  E <- list()
  class(E) <- "AA"
  #
  # Define the "." operation.
  #
  `%.%` <- function(i, j) {
    i[j+1] <- i[j+1]-1
    i[j] <- i[j] + 1
    return(i)
  }
  #
  # Define a recursive version of this function.
  #
  e. <- function(j) {
    #
    # Detect initial conditions and return initial values.
    #
    if (min(j) < 0 || sum(j[-1])==0) return(0)
    #
    # Look up the value (if it has already been computed).
    #
    x <- E[[j]]
    if (!is.null(x)) return(x)
    #
    # Compute the value (for the first and only time).
    #
    d <- sum(j)
    n <- length(j) - 1
    x <- (d + sum(sapply(1:n, function(i) j[i+1]*e.(j %.% i))))/(d - j[1])
    #
    # Store the value for later re-use.
    #
    E[[j]] <<- x
    return(x)
  }
  #
  # Do the calculation.
  #
  e.(i)
}
e(c(0,0,0,6))

Нарешті, ось оригінальна реалізація Mathematica, яка дала точну відповідь. Запам'ятовування здійснюється за допомогою ідіоматичного e[i_] := e[i] = ...виразу, виключаючи майже всі Rпопередні позначення . Внутрішнє, однак, обидві програми роблять однакові речі однаково.

shift[j_, x_List] /; Length[x] >= j >= 2 := Module[{i = x},
   i[[j - 1]] = i[[j - 1]] + 1;
   i[[j]] = i[[j]] - 1;
   i];
e[i_] := e[i] = With[{i0 = First@i, d = Plus @@ i},
    (d + Sum[If[i[[k]] > 0, i[[k]]  e[shift[k, i]], 0], {k, 2, Length[i]}])/(d - i0)];
e[{x_, y__}] /; Plus[y] == 0  := e[{x, y}] = 0

e[{0, 0, 0, 6}]

$\frac{2286878604508883}{69984000000000}$

— дзижчати
джерело

5

+1 I imagine some of the notation would be difficult to follow for the students who were asked this question (not that I have any concrete alternative to suggest right now). On the other hand I wonder what they were intended to do with such a question.

— Glen_b -Reinstate Monica

1

@Glen_b Вони могли б багато чого навчитися, фактично котивши кістки (і підраховуючи результати). Це звучить як хороший спосіб зайняти заняття на півгодини, поки вчитель відпочиває :-).

— whuber

12

Оригінальна версія цього питання розпочала життя, задавши:

скільки рулонів потрібно, поки кожна сторона не з’явиться 3 рази

$\rightarrow$

Розподіл необхідної кількості рулонів ... такий, що кожна сторона з’являється 3 рази

$n$ $X_i$ $i$ $i \in \{1, \dots, 6\}$ $(X_1, X_2,\dots, X_6)$ $\text{Multinomial}(n,\frac16)$

P (X_{1} = x_{1}, \dots, X_{6} = x_{6}) = \frac{n!}{x_{1}! \dots x_{6}!} \frac{1}{6^{n}} subject to: \sum_{i = 1}^{6} x_{i} = n

$P\left(X_1=x_1,\ldots ,X_6=x_6\right) \; = \; \frac{n! }{ x_1! \cdots x_6!} \; \frac{1}{6^n} \quad \text{ subject to: } \quad \sum _{i=1}^6 x_i=n$

Let: $\quad N = \min\big\{n: \; {X_i \geq 3 \; \forall_i } \big\}. \;$ Then the cdf of $N$ is: $\quad P(N \leq n) \; = \; P\big(X_{\forall_i} \geq 3 \; \big| \; n\big)$

i.e. To find the cdf $P(N \leq n)$ , simply calculate for each value of $n = \{18, 19, 20,\dots\}$ :

P (X_{1} \geq 3, \dots, X_{6} \geq 3) where (X_{1}, \dots, X_{6}) \sim Multinomial (n, \frac{1}{6})

$P(X_1 \geq3, \dots , X_6 \geq 3) \quad \text{ where } \quad (X_1, \dots, X_6) \sim \text{Multinomial}(n,\frac16)$

Here, for example, is Mathematica code that does this, as $n$ increases from 18 to say 60. It is basically a one-liner:

 cdf = ParallelTable[ 
   Probability[x1 >= 3 && x2 >= 3 && x3 >= 3 && x4 >= 3 && x5 >= 3 &&  x6 >= 3, 
       {x1, x2, x3, x4, x5, x6} \[Distributed] MultinomialDistribution[n, Table[1/6, 6]]],
    {n, 18, 60}]

... що дає точний cdf як $n$ збільшується:

\begin{array}{cc} 18 & \frac{14889875}{11019960576} \\ 19 & \frac{282907625}{44079842304} \\ 20 & \frac{3111983875}{176319369216} \\ 21 & \frac{116840849125}{3173748645888} \\ 22 & \frac{3283142988125}{50779978334208} \\ 23 & \frac{61483465418375}{609359740010496} \\ ⋮ & ⋮ \end{array}

$\begin{array}{cc} 18 & \frac{14889875}{11019960576} \\ 19 & \frac{282907625}{44079842304} \\ 20 & \frac{3111983875}{176319369216} \\ 21 & \frac{116840849125}{3173748645888} \\ 22 & \frac{3283142988125}{50779978334208} \\ 23 & \frac{61483465418375}{609359740010496} \\ \vdots & \vdots\\ \\ \end{array}$

Ось сюжет cdf $P(N\leq n)$ , як функція $n$ :

Вивести пмф $P(N=n)$ , просто перша різниця у форматі PDF:

Звичайно, розподіл не має верхньої межі, але ми можемо легко вирішити тут стільки значень, скільки практично потрібно. Підхід загальний і повинен працювати так само добре для будь-якої необхідної комбінації сторін.

— вовки
джерело