Я трактую питання так: припустимо, відбір проб був зроблений так, ніби квитки білого паперу були поміщені в банку, кожен з яких позначений іменем однієї людини, а були вилучені випадковим чином після ретельного перемішування вмісту банки. Попередньо квитків були пофарбовані у червоний колір. Який шанс, що саме два обраних квитка червоні? Який шанс, що принаймні два квитки є червоними?36323212
Точну формулу можна отримати, але нам не потрібно робити стільки теоретичну роботу. Натомість ми просто відстежуємо шанси, коли квитки витягуються з банки. У той час, коли їх було знято, нехай шанс, що саме побачив червоні квитки, буде написаний . Для початку зауважте, що якщо (ви не можете мати жодних червоних квитків до початку роботи) і (напевно у вас немає червоних квитків на початку). Тепер, на останньому розіграші, або квиток був червоним, або його не було. У першому випадку ми раніше мали шанс побачити самеmip(i,m)p(i,0)=0i>0p(0,0)=1p(i−1,m−1)i−1червоні квитки. Потім сталося те , щоб витягнути червону один з решти квитків, що робить його саме червоні квитки до сих пір. Оскільки ми припускаємо, що всі квитки мають рівні шанси на кожному етапі, тому наш шанс намалювати червоний таким чином був . В іншому випадку ми мали шанс отримати саме червоні квитки в попередніх розіграшах , і шанс не додати ще один червоний квиток до вибірки на наступному розіграші був363−m+1i(12−i+1)/(363−m+1)p(i,m−1)im−1(363−m+1−12+i)/(363−m+1). Отже, використовуючи основні аксіоми ймовірності (до речі, шанси на два взаємовиключні випадки додають, а умовні шанси збільшуються),
p(i,m)=p(i−1,m−1)(12−i+1)+p(i,m−1)(363−m+1−12+i)363−m+1.
Повторюємо цей обчислення рекурсивно, викладаючи трикутний масив значень для та . Після невеликого підрахунку отримуємо і , відповідаючи на обидві версії питання. Це невелика кількість: як би ви не дивилися на це, вони є досить рідкісними подіями (рідше, ніж одна на тисячу).0 ≤ i ≤ 12 0 ≤ m ≤ 232 p ( 2 , 232 ) ≈ 0.000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0.000934314p(i,m)0≤i≤120≤m≤232p(2,232)≈0.000849884p(0,232)+p(1,232)+p(2,232)≈0.000934314
Як подвійна перевірка, я виконував цю вправу з комп'ютером 1 000 000 разів. У 932 = 0,000932 цих експериментів спостерігалося 2 або менше червоних квитків. Це надзвичайно близько до розрахованого результату, оскільки коливання вибірки в очікуваному значенні 934,3 становить приблизно 30 (вгору або вниз). Ось як моделювання робиться в R:
> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6,
sum(sample(population, 232))) # Count the reds in 10^6 trials
> sum(results <= 2) # How many trials had 2 or fewer reds?
[1] 948
Цього разу, оскільки експерименти випадкові, результати дещо змінилися: два або менше червоних квитків спостерігалися у 948 з мільйонів випробувань. Це все ще відповідає теоретичному результату.)
Висновок полягає в тому, що навряд чи два або менше з 232 квитків будуть червоними. Якщо ви справді маєте вибірку з 232 з 363 осіб, цей результат є чітким свідченням того, що модель " зібрана в банку" не є правильним описом того, як була отримана вибірка. Альтернативні пояснення включають: (а) червоні квитки було складніше взяти з банки ("упередженість" проти них), а також (б) квитки були забарвлені після того, як спостерігали зразок ( пост-спеціальні дані, що проносяться, що не вказують на будь-які упередження).
Прикладом пояснень (b) дії може бути присяжний суд для горезвісного судового розслідування щодо вбивства. Припустимо, до нього увійшло 363 людини. З цього пулу суд опитав 232 з них. Амбітний репортер газети ретельно переглядає життєві дані всіх людей у басейні та зауважує, що 12 з 363 були любителями золотої рибки, але лише двоє з них були опитані. Чи суд упереджений щодо любителів золотих рибок? Напевно, ні.