Допоможіть мені порахувати, скільки людей прийде на моє весілля! Чи можу я віднести відсоток до кожної людини та додати їх?


37

Я планую своє весілля. Я хочу підрахувати, скільки людей прийдуть на моє весілля. Я створив список людей і шанс, що вони приймуть участь у відсотках. Наприклад

Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30%

У мене є список близько 230 осіб із відсотками. Як я можу оцінити, скільки людей відвідають моє весілля? Чи можу я просто скласти відсотки та поділити їх на 100? Наприклад, якщо я запрошу 10 людей з кожним шансом прийти на 10%, я можу очікувати 1 людину? Якщо я запрошу 20 людей з 50% шансом прийти, чи можу я очікувати 10 людей?

ОНОВЛЕННЯ: 140 людей прийшли на моє весілля :). Використовуючи описані нижче методики, я передбачив близько 150. Не надто пошарпаний!


43
Я не бачу жодної фігури для людини, з якою ви одружуєтесь. Це найважливіша кількість.
Нік Кокс

6
Я використовував вашу техніку на своєму весіллі, і вона спрацювала добре; ми передбачили приблизно 80 людей і отримали 85 або близько того. Зауважу, що коли ви маєте всіх цих людей у ​​своїй електронній таблиці, ви також можете використовувати ту саму електронну таблицю, щоб відстежувати такі речі, як кому ви надсилали подячні записки тощо.
Ерік Ліпперт

2
Доречно : timharford.com/2013/10/guest-list-angst-a-statistic-approach . Для чого це варто, я вибрав посилання на особистий блог автора, але стаття є з його колонки в Financial Times.
Стів Джессоп

@EricLippert Я спробував щось подібне для свого весілля, але не мав такого успіху. У день була дуже сильна гроза, і всі <30% ішло з годиною або більше не їздили.
OSE

3
@NickCox Також вони забули своє.
JFA

Відповіді:


32

Якщо припустити, що рішення запрошених осіб прийти на весілля є незалежними, кількість гостей, які прийдуть на весілля, можна змоделювати як суму випадкових змінних Бернуллі, які не обов'язково мають однакові ймовірності успіху. Це відповідає біномальному розподілу Пуассона .

Нехай - випадкова величина, що відповідає загальній кількості осіб, які прийдуть на ваше весілля з запрошених. Очікувана кількість учасників дійсно є сумою індивідуальних ймовірностей '' показ '' , тобто Виведення довірчих інтервалів не є простим, враховуючи форму функції масової ймовірності . Однак їх легко наблизити до моделювання Монте-Карло .XNpi

E(X)=i=1Npi.

На наступному малюнку показаний приклад розподілу кількості учасників весілля на основі 10000 модельованих сценаріїв (праворуч) з використанням деяких підроблених імовірностей показу 230 запрошених осіб (ліворуч). Код R, який використовується для запуску цього моделювання, показаний нижче; він забезпечує наближення довірчих інтервалів.

введіть тут опис зображення

## Parameters
N      <- 230    # Number of potential guests
nb.sim <- 10000  # Number of simulations

## Create example of groups of guests with same show-up probability
set.seed(345)
tmp    <- hist(rbeta(N, 3, 2), breaks = seq(0, 1, length.out = 21))
p      <- tmp$breaks[-1]    # Group show-up probabilities
n      <- tmp$counts        # Number of person per group

## Generate number of guests by group
guest.mat <- matrix(NA, nrow = nb.sim, ncol = length(p))
for (j in 1:length(p)) {
    guest.mat[, j] <- rbinom(nb.sim, n[j], p[j])
}

## Number of guest per scenario
nb.guests <- apply(guest.mat, 1, sum)

## Result summary
par(mfrow = c(1, 2))
barplot(n, names.arg = p, xlab = "Probability group", ylab = "Group size")
hist(nb.guests, breaks = 21, probability =  TRUE, main = "", xlab = "Guests")
par(mfrow = c(1, 1))

## Theoretical mean and variance
c(sum(n * p), sum(n * p * (1-p)))
#[1] 148.8500  43.8475

## Sample mean and variance
c(mean(nb.guests), var(nb.guests))
#[1] 148.86270  43.23657

## Sample quantiles
quantile(nb.guests, probs = c(0.01, 0.05, 0.5, 0.95, 0.99))
#1%     5%    50%    95%    99% 
#133.99 138.00 149.00 160.00 164.00 

1
Нічого це фантастично. Яке саме це моделювання?
Бехакад

4
Це моделювання в Монте-Карло
QuantIbex

Як ви перетворюєте "розмір групи" на кількість гостей? У мене є така фігура, як ваша, зліва, але я не впевнений, як її перетворити на фігуру справа ...
Behacad

Це робиться в рядках 11-18 в коді, наведеному у відповіді. Для сценарію jя генерую кількість "показів" для кожної з 20 груп ймовірностей, використовуючи біноміальний розподіл та ймовірність відображення цієї групи.
QuantIbex

18

Як було зазначено, очікування просто додаються.

Однак, знаючи, що очікування не має великої користі, вам також потрібно певне відчуття ймовірної зміни навколо нього.

Про це потрібно тримати три речі:

  • коливання людей навколо їхніх очікувань (людина, що має 60% шансів прийти, насправді не досягає їхніх очікувань; вони завжди або над, або під ним)

  • залежність між людьми. Пари, які можуть обидва прийти, як правило, або обидва відвідують, або ні. Маленькі діти не відвідуватимуть батьків. У деяких випадках деякі люди можуть уникнути приходу, якщо знають, що там буде інша людина.

  • помилка в оцінці ймовірностей. Ці ймовірності - лише здогадки; ви можете розглянути ефект дещо інших здогадок (можливо, чиїсь оцінки цих цифр)

Перший піддається обчисленню, або шляхом звичайного наближення, або за допомогою моделювання. Другий може бути модельований під різними припущеннями, або специфічними для людей, або, розглядаючи певний розподіл залежностей. (Третій пункт складніше.)


Відредаговано для вирішення наступних питань у коментарях:

Якщо я правильно розумію ваше фразування, для сім'ї з чотирьох осіб ви маєте 50% шансів на те, що кожен із 4-х людей або ніхто не прийде. Це очікуване число 2, звичайно, але ви хочете мати уявлення про мінливість навколо очікування, і в цьому випадку ви, ймовірно, хочете зберегти реальну ситуацію 50% від 0/50% з 4.

Якщо ви можете розділити всіх на незалежні групи, добре спочатку наблизити (з великою кількістю таких груп) було б потім додати засоби та відхилення в незалежні групи, а потім трактувати суму як звичайну (можливо, з корекцією безперервності). Більш точним підходом було б імітувати процес або точно обчислити розподіл за допомогою числової згортки; хоча обидва підходи прості, це непотрібний рівень точності для даного конкретного застосування, оскільки вже так багато шарів наближення - це як сказати розміри кімнати до найближчої стопи, а потім обчислити, скільки фарби вам знадобиться до найближчого мілілітра - додаткова точність безглузда.

Тож уявіть (для простоти) у нас було чотири групи:

1) група А (1 особа) - 70% шансів відвідування

2) група В (1 особа) - 60% шансів відвідування

3) група С (сім'я з 4 осіб) - 0: 0,5 4: 0,5 (якщо хто залишиться вдома, ніхто не прийде)

4) група D (пара 2) - 0: 0,4 1: 0,1 2: 0,5 (тобто 50% шанс обох, плюс 10% шанс точно один прийде, наприклад, якщо інший має робочі зобов'язання або хворий)

Тоді ми отримуємо такі засоби та відхилення:

      mean   variance
  A    0.7     0.21
  B    0.6     0.24
  C    2.0     4.0
  D    1.1     0.89

 Tot   4.4     5.34

Таким чином, нормальне наближення в цьому випадку буде досить грубим, але припускає, що більше 7 людей буде досить малоймовірним (на порядку 5%), а 6 чи менше трапляться приблизно в 75-80% часу.

[Більш точним підходом було б імітувати процес, але, на повну проблему, а не на прикладний випадок, це, мабуть, непотрібно, оскільки вже так багато шарів наближення.]


Після того, як у вас є комбінований розподіл, який включає такі групові залежності, ви, можливо, захочете застосувати будь-які джерела загальної спільної залежності (наприклад, сувора погода) - або, можливо, ви захочете просто застрахуватися від таких випадків або навіть ігнорувати їх, залежно від обставин .


5
+1 для згадування залежностей. Вони виникають з інших причин, ніж міжособистісні стосунки, такі як погода та умови подорожі. Багато з них викликають позитивні кореляції - які розширюють діапазон невизначеності. Якщо кошториси будуть використані для забезпечення логістики (харчування, місць тощо), то достовірно оцінювати варіацію. Незважаючи на те, що у весільній програмі не можна зробити багато іншого, ніж здогадуватися про освіту, але якісне розуміння цих статистичних явищ може привести до кращих здогадок.
whuber

@whuber Хороший пункт про інші джерела залежності, наприклад, від погоди. За певних обставин такі речі можуть легко заполонити ефекти, про які я згадую.
Glen_b -Встановити Моніку

Як я міг легко врахувати залежність? Наприклад, якщо я знаю пару з двома дітьми, і я очікую, що батьки мають приблизно 50% шансів прийти. Я знаю, що вони привезуть своїх дітей, якщо вони прийдуть. Чи економити приписати 50% кожній людині і в основному припустити, що приходять 2 людини?
Behacad

2
@Behacad: Якщо ви знаєте, що мова йде про повну або нічию з даною групою, ви можете просто оцінити ймовірність появи групи як єдину одиницю і зважити групу за кількістю особи в ній. Я погоджуюсь, що помилки помилок було б також добре включити до ваших оцінок.
Нік Стаунер

Дякую. У мене невелика таблиця з відсотками та кількістю людей з таким відсотком, але я не знаю, що зараз робити. Які кошти слід додати? Які дисперсії? (100% -52, 90% -21, 80% -34, 70% -16,60% -32,50% -35,40% -25,30% -11,20% -22,10% -15 , 0% -9)
Бехакад

5

(Ігноруйте свої попередні коментарі з цього приводу - я щойно зрозумів, що я плутаю очікування з чимось іншим.) Враховуючи, що ви, по суті, намагаєтесь знайти очікування кількості людей, що з’являються, теоретично можна додати ймовірність появи кожної людини до цього.

01

Однак це дає лише очікувану цінність - без подальших припущень буде складно оцінити такі речі, як дисперсія людей, що з’являються, тим більше, що досить справедливо вважати, що людина, яка з’являється, не обов'язково залежить від людини, яка з’являється.

Що вбік, ось нечітко відповідна стаття BBC.


Дякую! Тож для підтвердження, якщо я думаю, що 10 людей мають 10% шансів приїхати, я можу здогадатися, що, наприклад, приїде 1 людина.
Бехакад

Теоретично так, але здається, що складно побудувати щось корисніше (наприклад, довірчі інтервали) без будь-яких подальших припущень щодо речей.

Дякую. Як я міг дійти довірчих інтервалів?
Бехакад

У цьому я не зовсім впевнений з ряду причин. (Мені, мабуть, доведеться витратити більше часу на пошук деяких речей, щоб дати докладнішу відповідь на це.)

4

Для великої кількості 80% - це те, що ви очікували. Це може бути ситуація, коли детальний аналіз, запропонований вами, лише додає помилок до розрахунків.
Наприклад, чи справді потенційна відвідуваність Марка 1/3 Джозефа? А чи справді Йосип 30%, чи це може бути 25%? Це трапляється, коли ви досягаєте великої кількості, що просто на 80% більше, ніж весь цей аналіз. Я щойно повернувся з весілля. 550 запрошених. 452 відвідували. Для планування залу та початку розмови з громадським харчуванням початкова оцінка 440 була чудовою.

Чи можу я запропонувати пару від тосту? "Пам'ятайте, якщо ваша дружина щаслива, але ви не щаслива, ви все ще набагато щасливіші, ніж якщо ваша дружина нещасна, але ви щасливі".


Дякую! Одне занепокоєння полягає в тому, що люди будуть приходити з усіх кінців і з різних відстаней. Деякі досить далеко, інші просто вниз по вулиці.
Бехакад

3
Ця цифра може залежати від культури.
Juho Kokkala

@Juho - це може бути. Я перебуваю у США, і в моєму недавньому прикладі це була половина запрошених приблизно на половину запрошених, тобто весілля було в рідному місті нареченої. Цікаво, які культурні відмінності вплинуть на явку, але я підозрюю, що ви праві.
JTP - Вибачте Моніку

4
Це чудовий приклад оцінювача, який існує в теорії, але здається незвичним на практиці (поки ви не шукаєте такого роду речі): за будь-якого набору даних він повертає заздалегідь задане число (80% у цьому випадку). Його легко обчислити, дуже недорого (витрати на збір даних можна зменшити до нуля) і має нульову дисперсію. Це Байєс (для атомного попередника) і допустимий. Досі будуть виникати нагальні питання щодо його упередженості та послідовності, які можуть бути важкими для вирішення та не зникнуть, уникаючи "детального аналізу".
whuber

2

Як статистик, який щойно одружився, я скажу вам, що JoeTaxpayer має правильну відповідь. Показник 80% вражає мене як трохи високого, хоча міг би бути точним, якби більшість людей були місцевими (наше було весілля призначення, і ми приземлилися ближче до 65%).

Але, тим не менше, ви припускаєте, що багато коливань у попередніх вірогідностях, які люди відвідують, я думаю, що існує більше, ніж насправді існує. Якщо припустити, що ви не запрошуєте людей, які активно вас не люблять, ви повинні припустити, що майже всі прийдуть, для кого це можливо, і у них немає конфлікту (в широкому розумінні), але принаймні 10-20% Чи буде щось, що не дає їм відвідувати. Для тих, хто має подорожувати, це збільшує необхідний час і гроші, тому цифра 30-35% мандрівників не відвідуватиметься (залежно від відстані). В іншому випадку зберігайте ймовірності постійними (навіть якщо ваші батьки скажуть "так, і так не пролетить аж до Остіна, ми просто хочемо їх запросити ..."). Якщо ви влаштовуєте веселий прийом, особливо з відкритим баром, люди, як правило, не пропускають цього, якщо не повинні.

У будь-якому разі, вітаю з одруженням. Щодо ймовірності того, що ви залишитеся одруженими, це завжди добре читати: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf

:-)


1

Складіть всі ймовірності, це очікувана кількість людей, які приїдуть.

Pii1iPi1i

Звичайно, ми припускаємо, що хтось приходить чи ні, це не залежить від відвідування інших людей. Це припущення просто неправильне. Розгляньте пари, вони сильно корелюються.

2×1iPiPi


1

На своє весілля я склав два списки - ймовірно, відвідував (80%) і навряд чи відвідував (20%). Незалежно від будь-якої вдосконаленої оцінки з будь-якої причини, я призначив усіх запрошених до однієї з двох груп. Мене зняли 2 людини. N = 1. Суто евристичний.


Можу я запитати? Якою була остаточна% явки?
JTP - Вибачте Моніку

72% відповіли "так", але я забуваю, скільки днів скасовується.
michaelcarniol

0

Я зауважую, що ніхто не вказував, що вам не потрібно ділити на 100. Ваші відсотки можна розглядати як очікувані частини людини, які повинні з’явитися, розуміючи, що, як і кішка Шредінгера, ви не отримаєте частин людини в відвідуваності або не в відвідуваності, але стан відвідування кожної людини буде повністю вирішено в момент події.

Оскільки діапазон ваших відсотків становить від 0% (жодна особа, яка з’являється), до 100% (усі люди, які з’являються), у двох ваших прикладах із залученням 10 та 20 осіб ви підсумували очікуване значення для частини кожного людина, щоб показати, і отримав номер, одиницями якого були "люди".

Видатне рівняння у чудовій відповіді QuantIbex показує, що підсумовування відсотків призводить до очікуваної кількості людей на заході, жодного поділу не бере участь.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.