Яка реальна відповідь на питання дня народження?


13

"Наскільки великим повинен бути клас, щоб зробити ймовірність знайти двох людей з тим самим днем ​​народження принаймні 50%?"

У мене у фейсбуці є 360 друзів, і, як і слід було очікувати, розподіл їх днів народження зовсім не є рівномірним. У мене один день з цим є 9 друзів з тим самим днем ​​народження. (9 місяців після великих свят і день Святого Валентина здаються великими, хахайте ..) Отже, враховуючи, що деякі дні є більш імовірними для дня народження, я припускаю, що число 23 є надмірним.

Чи була краща оцінка цієї проблеми?


3
Вибірка з 360 осіб не є великою вибіркою для розподілу днів народження протягом 365 днів у році ... Ви, звичайно, не можете перевірити рівномірність такої невеликої вибірки.
Сіань

У людини день народження, які шанси на те, що друга людина не поділяє той самий день народження? 364/365, які шанси на те, що третя людина не ділиться ні з днем ​​народження? (364/365) * (363/365). Розширюйте це, поки не з’явиться ймовірність < 50%. Це означало б шанси на те, що ніхто не має того самого дня народження, а це, в свою чергу, означає, що шанси принаймні на два поділити день народження будуть > 50%.
zzzzBov

8
Чи варто вважати, що у вас є випадкові друзі?
Джеймс

1
@zzzzBov - ти не розумієш, що просить ОП. Це такий підхід, коли ми вважаємо, що кожен день народження є однаково вірогідним, кожен має шанс бути вашим. ОП просить за те , що оцінка буде , коли говорять , що народжується на 1 січня не частіше, народившись на 15 лютого1365
probabilityislogic

Відповіді:


18

На щастя, хтось опублікував справжні дані про день народження з невеликим обговоренням пов’язаного питання (є формою розподілу). Ми можемо скористатись цим і переупорядкувати, щоб показати, що відповідь на ваше запитання, очевидно, 23 - те саме, що теоретична відповідь .

> x <- read.table("bdata.txt", header=T)
> birthday <- data.frame(date=as.factor(x$date), count=x$count)
> summary(birthday) 
      date         count     
 101    :  1   Min.   : 325  
 102    :  1   1st Qu.:1266  
 103    :  1   Median :1310  
 104    :  1   Mean   :1314  
 105    :  1   3rd Qu.:1362  
 106    :  1   Max.   :1559  
 (Other):360                 
> results <- rep(0,50)
> reps <-2000 # big number needed as there is some instability otherwise
> for (i in 1:50)
+ {
+ count <- 0
+ for (j in 1:reps)
+ {
+ samp <- sample(birthday$date, i, replace=T, prob=birthday$count)
+ count <- count + 1*(max(table(samp))>1)
+ }
+ results[i] <- count/reps
+ }
> results
 [1] 0.0000 0.0045 0.0095 0.0220 0.0210 0.0395 0.0570 0.0835 0.0890 0.1165
[11] 0.1480 0.1770 0.1955 0.2265 0.2490 0.2735 0.3105 0.3350 0.3910 0.4165
[21] 0.4690 0.4560 0.5210 0.5310 0.5745 0.5975 0.6240 0.6430 0.6950 0.7015
[31] 0.7285 0.7510 0.7690 0.8025 0.8225 0.8280 0.8525 0.8645 0.8685 0.8830
[41] 0.8965 0.9020 0.9240 0.9435 0.9350 0.9465 0.9545 0.9655 0.9600 0.9665

8
Дійсно, через опуклість Шура можна показати , що при будь-якому нерівномірному розподілі днів народження ймовірність відповідності принаймні така ж велика, як у єдиному випадку. Це вправа 13.7 Дж. Майкла Стіла, майстер-клас Коші-Шварца: Вступ до мистецтва математичних нерівностей , Cambridge University Press, 2004, стор. 206 .
кардинал

2
@ Xi'an: Дійсно. Тепер, якби я знав когось, хто робив огляди книг для якісного журналу статистики для читачів, я запропонував би їм переглянути його, щоб дати йому більшу видимість статистикам ... але де знайти таку людину ...
кардинал

3
(Для тих, хто, можливо, цікавиться моїм попереднім коментарем, він посилається на те, що @ Xi'an - це новопризначений рецензент книги " Шанс" .)
кардинал

2
@ Сіань, перевірити це і подивитися , що ви думаєте: table(replicate(10^5, max(tabulate(sample(1:365,360,rep=TRUE))))).
whuber

3
Напевно, не зрозуміло, за винятком R cognoscenti, що код у попередніх коментарях @ Xi'an і я сам імітує ситуацію з ОП. За його допомогою встановлено, що шанс 9 або більше людей, які діляться днем ​​народження, із 360 випадковим чином обраних із рівномірно розподіленого населення, становить лише близько 40 із 100 000. Найбільш вірогідне значення для максимальної кількості народжених днів, що поділяються, - 5.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.