Яка ймовірність, що n людей зі списку m людей опиняються у випадковому відборі x людей зі списку y людей?


10

Якщо я вибираю 232 особи з пулу з 363 людей без заміни, яка ймовірність того, що 2 із списку з 12 конкретних людей будуть в цьому відборі?

Це випадковий розіграш для ультра-гонки, де було 233 учасники на 232 місця. Існує аргумент про те, чи був відбір упередженим щодо певної групи з 12 осіб.

Моя початкова спроба обчислити це полягала в тому, що було 232 обрати 363 можливі вибірки. Кількість комбінацій будь-якої однієї людини зі списку дванадцяти дорівнює 1 вибору 12 + 2 вибору 12 + ... + 11 вибору 12 + 12 вибору 12. Таким чином, 1 вибору 12 + 2 вибору 12 .... / 232 вибору 363 Що, в кінцевому підсумку, є дуже низьким числом, явно занадто низьким.

Як я обчислюю це?


1
Два технічні моменти. По-перше, ви зараз маєте справу з вірогідністю, а не ймовірністю, оскільки результат відомий. По-друге, не має значення, яка теоретична ймовірність, враховуючи, що у вас є результат. Думаю, було б краще підійти до методу, який використовується для відбору: як обирали вибір? Потрібно довести правильність методу, а не правильність результату.
Мішель

1
Можна було б розглянути це як вірогідність, Мішель, для оцінки ймовірності відбору. Це, мабуть, не так.
whuber

Вам потрібно бути обережним у використанні простого підрахунку гіпергеометричного РВ, оскільки 12 людей, які скаржаться, не вибрані випадковим чином. Вони скаржаться , тому що вони були НЕ обрані.
Хлопець

Відповіді:


10

Я трактую питання так: припустимо, відбір проб був зроблений так, ніби квитки білого паперу були поміщені в банку, кожен з яких позначений іменем однієї людини, а були вилучені випадковим чином після ретельного перемішування вмісту банки. Попередньо квитків були пофарбовані у червоний колір. Який шанс, що саме два обраних квитка червоні? Який шанс, що принаймні два квитки є червоними?36323212

Точну формулу можна отримати, але нам не потрібно робити стільки теоретичну роботу. Натомість ми просто відстежуємо шанси, коли квитки витягуються з банки. У той час, коли їх було знято, нехай шанс, що саме побачив червоні квитки, буде написаний . Для початку зауважте, що якщо (ви не можете мати жодних червоних квитків до початку роботи) і (напевно у вас немає червоних квитків на початку). Тепер, на останньому розіграші, або квиток був червоним, або його не було. У першому випадку ми раніше мали шанс побачити самеmip(i,m)p(i,0)=0i>0p(0,0)=1p(i1,m1)i1червоні квитки. Потім сталося те , щоб витягнути червону один з решти квитків, що робить його саме червоні квитки до сих пір. Оскільки ми припускаємо, що всі квитки мають рівні шанси на кожному етапі, тому наш шанс намалювати червоний таким чином був . В іншому випадку ми мали шанс отримати саме червоні квитки в попередніх розіграшах , і шанс не додати ще один червоний квиток до вибірки на наступному розіграші був363m+1i(12i+1)/(363m+1)p(i,m1)im1(363m+112+i)/(363m+1). Отже, використовуючи основні аксіоми ймовірності (до речі, шанси на два взаємовиключні випадки додають, а умовні шанси збільшуються),

p(i,m)=p(i1,m1)(12i+1)+p(i,m1)(363m+112+i)363m+1.

Повторюємо цей обчислення рекурсивно, викладаючи трикутний масив значень для та . Після невеликого підрахунку отримуємо і , відповідаючи на обидві версії питання. Це невелика кількість: як би ви не дивилися на це, вони є досить рідкісними подіями (рідше, ніж одна на тисячу).0 i 12 0 m 232 p ( 2 , 232 ) 0.000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) 0.000934314p(i,m)0i120m232p(2,232)0.000849884p(0,232)+p(1,232)+p(2,232)0.000934314

Як подвійна перевірка, я виконував цю вправу з комп'ютером 1 000 000 разів. У 932 = 0,000932 цих експериментів спостерігалося 2 або менше червоних квитків. Це надзвичайно близько до розрахованого результату, оскільки коливання вибірки в очікуваному значенні 934,3 становить приблизно 30 (вгору або вниз). Ось як моделювання робиться в R:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

Цього разу, оскільки експерименти випадкові, результати дещо змінилися: два або менше червоних квитків спостерігалися у 948 з мільйонів випробувань. Це все ще відповідає теоретичному результату.)

Висновок полягає в тому, що навряд чи два або менше з 232 квитків будуть червоними. Якщо ви справді маєте вибірку з 232 з 363 осіб, цей результат є чітким свідченням того, що модель " зібрана в банку" не є правильним описом того, як була отримана вибірка. Альтернативні пояснення включають: (а) червоні квитки було складніше взяти з банки ("упередженість" проти них), а також (б) квитки були забарвлені після того, як спостерігали зразок ( пост-спеціальні дані, що проносяться, що не вказують на будь-які упередження).

Прикладом пояснень (b) дії може бути присяжний суд для горезвісного судового розслідування щодо вбивства. Припустимо, до нього увійшло 363 людини. З цього пулу суд опитав 232 з них. Амбітний репортер газети ретельно переглядає життєві дані всіх людей у ​​басейні та зауважує, що 12 з 363 були любителями золотої рибки, але лише двоє з них були опитані. Чи суд упереджений щодо любителів золотих рибок? Напевно, ні.


Примітка. У процесі моделювання не має значення, що саме перші 12 "квитків" позначені, оскільки всі вибірки виконуються випадковим чином без заміни (через sample). Насправді, під час кожної ітерації sampleретельно змішуються квитки, кожного разу, коли вона викликається, перш ніж вилучити 232 з них.
whuber

2
Добре - це був насправді не той результат, який я очікував. Дякую за вашу ретельну роботу та гарне пояснення. (Цікаво, що я насправді займався статистикою в університеті Окленда, де вперше був розроблений R)
Серж

10

@whuber дав вичерпне пояснення, я просто хочу зазначити, що існує стандартний статистичний розподіл, відповідний цьому сценарію: гіпергеометричний розподіл. Таким чином, ви можете отримати будь-які такі ймовірності безпосередньо в, скажімо, R:

Вірогідність точно 2 з 12 обраних:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

Імовірність 2 або менше з 12 обраних:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314

+1 Дякую Я мав би згадати цей зв’язок. Гіпергеометричне розподіл класично з'являється в експериментах вибірки-переутворення. 12 конкретних людей (мої «червоні квитки») - це як риба, яку спіймали, відзначили та викинули назад у басейн; зразок 232 схожий на набір риб, які згодом виловлюються. Гіпергеометричний розподіл описує частоти відловлених риб.
whuber

0

Коефіцієнт набагато вищий, ніж розрахований при простому гіпергеометричному розподілі, оскільки групу не вибирають випадковим чином ( "12 риб перед фарбою розфарбують у червоний колір" ).

З опису питання ми перевіряємо на предмет шахрайства в розіграші. Конкретна група з 12 осіб скаржилася, що було обрано лише 2, тоді як очікувана кількість була 232/363 ~ 2/3 = 8.

Нам дійсно потрібно обчислити - це шанси на те, що "У жодної групи розміром 12 не буде обрано лише 2 члена". Шанси, що принаймні в одній групі буде 2 або менше (тому будуть скаржитися на справедливість жеребкування), значно вищі.

Коли я запускаю це моделювання та перевіряю, у скільки з випробувань жодна із 30 (= 360/12) груп не мала 2 або менше виділень, я отримую приблизно 2,3% разів. 1:42 низький, але не неможливий.

Ви все ж повинні перевірити процедуру жеребкування, оскільки це може бути упереджене щодо певної групи людей. Вони, можливо, зібралися і отримали діапазон жеребкування з меншою ймовірністю (наприклад, перше чи останнє число), або будь-яку залежну змінну від процедури жеребкування. Але якщо ви не знайдете жодних недоліків у процедурі, ви можете повернутися до шансів 1:42, що це просто невдача для групи.


Хороший момент, Але (а) безумовно, що не кожна можлива група з 12 має достатню схожість з матерією, і (б) не всі групи, які мають достатню схожість на матерію, мають рівно 12 членів.
zbicyclist

@zbicyclist, я не стверджую, що розрахунок точний. Я хотів викликати обґрунтовані сумніви (оскільки ми перебуваємо у царині закону із виявленням шахрайства), що нічия не є винною.
Хлопець
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.