Ймовірність народження у високосний день?


31

Зважаючи на те, що сьогодні день високосний, чи знає хто ймовірність народження у високосний день?


30
Зауважте, що народження не розподіляються рівномірно протягом року, тому ймовірність випадково вибраного дня, який є високосним, не є такою ж, як ймовірність народження одного.
Бен Мілвуд

17
З кого народжуються? Усі люди в історії? Сьогодні? Усі живі люди? Перспективно в майбутнє? Ймовірності безглузді, якщо події, на які вони посилаються, не є чітко визначеними.
whuber

15
100% людей, народжених сьогодні, будуть. Чи допомагає це?
aslum

8
Багато батьків не хочуть, щоб їхні діти народилися в високосний день. Тож із підвищенням запланованих секцій C, ймовірність буде нижчою, ніж випадковий день. fivethirtyeight.com/features/…
Джеймс Лоурук

3
Я погоджуюся з @whuber, що питання не визначено чітко. Без належного визначення вірогідного простору на питання не можна відповісти. Звідси і низхідний рух.
mpiktas

Відповіді:


24

Звичайно. Детальніше пояснення див . Тут : http://www.public.iastate.edu/~mlamias/LeapYear.pdf .

Але по суті автор робить висновок: "За 2 тисячоліття існує 485 високосних років. Отже, за 2 тисячоліття загалом днів налічується З цих днів 29 лютого відбувається в 485 з них (високосні роки), тому ймовірність становить "485 / 730 485 = +0,0006639424485(366)+(2000485)(365)=730485485/730485=0.0006639424


9
Чому його не можна обчислити як 1 / (Кількість днів за 4 роки) = 1/1461 = 0,00068 ?
Сіддеш

21
@Siddhesh Існує правило, що стосується століть. Так, наприклад, 2100 - не високосний рік
Rentrop

8
@Siddhesh, на жаль, не все так просто. Випускні роки трохи складніші. Середня тривалість року - це в середньому 365,2425 днів, а не 365,25. Як написано на сторінці вікіпедії високосного року, "Григоріанський календар ... знімає три високосні дні кожні 400 років, що є тривалістю її високосного циклу. Це робиться шляхом видалення 29 лютого за три століття (кратні 100) це не можна точно розділити на 400. [3] 2000 та 2400 роки - це високосні роки, тоді як 1800, 1900, 2100, 2200, 2300 і 2500 - це загальні роки ".
СтатистикаСтудент

10
Я не бачу, чому потрібно вважати 2000 років; високосні роки перебувають на 400-річному циклі, то чому б не просто скоротити до "існує 97 високосних років за 400 років"?
Філіп Кендалл

7
Чому ми повинні вважати такі незначні впливи, як "скасовані" високосні дні у століттях, не кратні 400, але, з іншого боку, не є чинниками зовнішніх впливів, як, наприклад, майже всі народження, які були відкладені минулими або введені до 29 лютого, просто для порятунку дитина від незручності (чи інших причин)? - Принаймні, тут, у Німеччині, вірогідність народження будь-якого 29 лютого становить (за оцінками) майже нульову.
Я з Монікою

23

Щоб точно передбачити цю ймовірність, використовуючи статистику, було б корисно знати, де відбулися пологи.

На цій сторінці http://chmullig.com/2012/06/births-by-day-of-year/ є графік, що показує підмножину кількості народжених на день (множення 29-го на 4, що є неправильним та небажаним стосовно цього питання, але воно також посилається на вихідні дані та дає приблизну інформацію про те, що ви можете очікувати) у Сполучених Штатах. Я б припустив, що ця крива не відповідає дійсності для інших країн, а особливо для інших континентів. Зокрема, південна півкуля та екваторіальний регіон можуть виявити істотне походження від цих результатів - якщо припустити, що клімат є визначальним фактором.

Крім того, існує проблема "виборчого народження" (торкнулася авторів http://bmjopen.bmj.com/content/3/8/e002920.full ) - у бідніших регіонах земної кулі я б очікував іншого розподіл пологів, просто тому, що (без надзвичайних ситуацій) кесарів розтин або спричинене народження рідше, ніж у розвинених країнах. Це спотворює остаточний розподіл народжуваних.

Користуючись американськими даними, припускаючи, що ~ 29 мільйонів народжених (грубо середня середня сума * 366) та 46 000 народжених 29 лютого, не виправляючи розподіл високосних років у даних, оскільки точний період не вказаний, я припадаю на ймовірність близько ~ 0,000648. Це трохи нижче значення, яке можна було б очікувати за рівного розподілу народжень, і, таким чином, відповідно до загального враження, яке дає графік.

Я залишу тест на значущість цієї грубої оцінки мотивованому читачеві. Але з огляду на те, що 29-й (хоча і не виправлений - 2000 рік вводить у дані нижче середнього зміщення) набирає низьких показників навіть для вже низьких лютневих стандартів, я припускаю порівняно високу впевненість у тому, що нульовий гіптоз рівномірного розподілу може бути відхилений.


1
У наборі даних є 30 лютого та 31 день народження. Забавно. Перед аналізом потрібно добре очистити, але у нього багато даних, що чудово.
Аксакал

22

Я думаю, що відповідь на це питання може бути лише емпіричним. Будь-яка теоретична відповідь була б хибною без врахування явищ вибору дня народження, сезонності тощо. З цими речами теоретично неможливо розібратися.

Дані про день народження важко знайти в США з міркувань конфіденційності. Там один анонімний набір даних тут . Це із страхових заявок у США. Відмінність від інших звітів, наприклад, популярної, часто цитованої статті NYT , полягає в тому, що в ній перерахована частота народжень за датами, а не просто ранжування днів у році. Слабка сторона - це, звичайно, упередженість вибірки, оскільки це відбувається від страхування: незастраховані люди не включаються тощо

Згідно з даними, у лютому 29 народження було 325 від загальної кількості 481040. За даними Роя Мерфі , вибірка охоплює 1981-1994 рр . Вона включає 3 високосні роки, загалом 14 років. Без жодних коригувань вірогідність становитиме 0,0675% від народження 29 лютого між 1981 та 1994 роками.

Ви можете налаштувати ймовірність шляхом обліку частоти високосних років, що близько до 1/4 ( неточно , хоча ), наприклад , шляхом множення цього числа на , щоб прийти до оцінки 0,079%. Тут умовна ймовірність p народитися 29 лютого у високосний рік пов'язана із спостережуваною частотою F o = 325 частотою f L = 3 високосних років у вибірці: F o = f L / N F p , де N = 1414/12pЖо=325fL=3

Жо=fL/NЖp,
N=14- кількість років у вибірці, а - загальна частота народжень.Ж=481040

Як правило, ймовірність високосних років , отже, довгостроковій перспективі середня ймовірність P L про народження на 29 лютого становить: P L = р Lр р LNpL1/4ПL

ПL=pLppLNfLЖоЖ0,079%

Вас може зацікавити умовна ймовірність народитися 29 лютого, враховуючи, що ви народились у високосний рік: p = Np

p=NfLЖоЖ0,32%

ПLp

Звичайно, ця дискусія була орієнтована на США. Хтозна, які закономірності в інших країнах.

ОНОВЛЕННЯ: Ми автоматично припускали, що ОП є григоріанським календарем. Це стає ще цікавішим, якщо розглянути різні календарі, такі як місячний календар Хіджі , де високосні роки кожні 30 років.

ОНОВЛЕННЯ 2:

pЖp=1,527Amitabh Chandra, Harvard University

Тепер, наскільки ймовірно, що дуже своєрідні дні в григоріанському календарі: 1 січня, 25 грудня та 29 дебату прийшли випадково як найпопулярніші дні народження? Я кажу, що це малоймовірна випадкова подія. Отже, ще цікавіше бачити, що відбувається в інших календарях, таких як Хіджі.

ОНОВЛЕННЯ 3:

ПL,p

p^1/3660,27
П^Lp3663654+10,068

ОНОВЛЕННЯ 4:

χ2

14365+3

d=[0101 1482
...
1231 1352];
%%
tc = sum(d(:,2)); % total obs

idL = 60; % index of Feb 29

% theor frequency, assuming uniform
ny = 1994 - 1981 + 1; % num of years
nL = 3; % # of leap years: 1984, 1988, 1992
nd = 365*ny + nL; % total # of days

fc = tc/nd; % expected freq for calendar date in sample
td = ones(366,1)*fc*ny; % roll the dates into day of year
td(idL) = fc*nL;

fprintf(1,'non-leap day expected freq: %f\n',td(end))
fprintf(1,'leap day expected freq: %f\n',td(idL))
fprintf(1,'non-leap day average freq: %f\n',mean(d([1:idL-1 idL+1:end],2)))
fprintf(1,'non-leap day freq std dev: %f\n',std(d([1:idL-1 idL+1:end],2)))
fprintf(1,'leap day observed freq: %f\n',d(idL,2))

% plots
bar(d(:,2))
hold on
plot(td,'r')
legend('empirical','theoretical')
title('Distribution of birth dates 1981-1994')
set(gca,'XTick',1:30:366)
set(gca,'XTickLabels',[num2str(floor(d(1:30:366,1)/100)) repmat('/',13,1) num2str(rem(d(1:30:366,1),100))])
grid on

% chi^2 test
[h p]=chi2gof(d(:,2),'Expected',td)

ВИХІД:

non-leap day expected freq: 1317.144534
leap day expected freq: 282.245257
non-leap day average freq: 1317.027397
non-leap day freq std dev: 69.960227
leap day observed freq: 325.000000

h =

     1


p =

     0

введіть тут опис зображення


3
Це корисний аналіз (+1). Це змушує мене замислитися над тим, який зв’язок існує, якщо такий є, між аналізованими частотами та (нечітко визначеною) ймовірністю, про яку йдеться у питанні.
whuber

1
@whuber, ймовірність моєї відповіді стосується таких випадків, як аналіз страхових заявок або деяких даних користувачів. Наприклад, у вас є веб-сайт і ви хочете позначити проблемні дані користувачів. Ви можете порівняти частоту народження 29 лютого з моїми ймовірностями. Однак якщо ви плануєте сім'ю і задаєте це питання, то мої номери марні, досить багато. Причина полягає в тому, що вони не враховують таких факторів, як, коли саме пара насправді відбувається копулюванням, або фертильністю та періодами періодів пар, наприклад, що є головним визначальним датою дня народження.
Аксакал

Радий бачити, що ви не починали з математики, перш ніж розглядати інші фактори, крім чистої статистики
TheBlastOne

8

Обкладинка моєї улюбленої книги коли-небудь дає дуже важливі докази проти припущення про рівномірне розподіл народжень за датами. Зокрема, що народження в США з 1970 року демонструють кілька тенденцій, накладених на одне інше: тривалий, багатодесятирічний тренд, неперіодичний тренд, тенденції денного тижня, тенденції денного року, святкові тенденції (адже такі процедури, як кесарів розтин) розділ дозволяє ефективно планувати дату народження, і лікарі часто не роблять це у святкові дні). Результатом є те, що ймовірність народження у випадково вибраний день у році неоднакова, а оскільки народжуваність змінюється між роками, не всі роки є однаковою ймовірністю.

Це також свідчить про те, що рішення Аксасала, хоча є дуже сильним претендентом, також є неповним. Невелика кількість високосних днів буде "забруднена" усіма наслідками, які тут грають, тому оцінка Аксасала також фіксує (зовсім випадково) ефект денних тижнів і довгострокових тенденцій разом з 29 лютого. ефект. Які ефекти і які не доцільно включати, у вашому запитанні чітко не визначено.

І цей аналіз стосується лише США, який має демографічні тенденції, які можуть сильно відрізнятися від інших країн чи населення. Наприклад, рівень народжуваності в Японії знижується, наприклад, десятиліттями. Рівень народжуваності в Китаї регулюється державою, що має певні наслідки для гендерного складу нації, а отже, і для народжуваності в наступних поколіннях.

Аналогічно, аналіз Гельмана описує лише кілька останніх десятиліть, і не обов’язково зрозуміло, що це навіть епоха, що цікавить ваше питання.

введіть тут опис зображення

Для тих, хто захоплюється подібними речами, матеріал у обкладинці детально обговорюється в главі про Гауссові процеси.


2
Короткий опис використовуваної моделі також доступний у публікації в блозі тут: andrewgelman.com/2012/06/19/…
Sakari Cajanus

3

29 лютого - дата, яка відбувається щороку, кратна 4 .

Однак роки, кратні 100, але не однієї з 400, не вважаються високосними (наприклад: 1900 - не високосний рік, а 2000 або 1600). Тому нині це одна і та ж закономірність кожні 400 років.

Тож давайте зробимо математику на інтервалі [0; 400 [ :

На період 400 років існує рівно 4 х 25 = 100 років, кратні 4 . Але ми повинні відняти 3 (роки кратні 100, але не 400), і отримаємо 100 - 3 = 97 років.

Тепер нам треба помножити 97 на 366, 97 x 366 = 35502 (кількість днів у високосний рік за період 400 років), залишається (365 x (400-97)) = 110 595 (кількість днів, що не стоять ' t у високосний рік за період 400 років).

Тоді нам просто потрібно додати ці два числа, щоб знати загальну кількість днів за період 400 років: 110 595 + 35502 = 146 097 .

На закінчення наша ймовірність - це число 29 лютого за період 400 років, тому 97, враховуючи, що існує 97 високосних років, поділених на загальну кількість днів нашого інтервалу:

p = 97/146097 ≈ 0,0006639424492

Сподіваюся, що це правильно і зрозуміло.


7
Це приємний аналіз шансів, що випадково обрана дата буде 29 лютого. Я вважаю, що більшість дискусій у цій темі зосереджена на тому, що це насправді не відповідає на питання про шанси на народження, які насправді не ведуть себе як випадкові малюнки з безлічі можливих днів.
whuber

1
Набагато простіший спосіб - сказати, що на 400 років існує 97 високосних років, як ви вже відпрацювали. Обчисліть кількість днів у 400 нормальних років. 400 * 365 = 146000. Тоді вам потрібно додати 97 високосних днів, даючи 146097.
CJ Dennis

2

Я вважаю, що тут переплутано два питання. Перший - "Яка ймовірність того, що будь-який день стане 29 лютого?". Другий - (а насправді запитували) "Яка ймовірність народження у високосний день?"

p=971460970,00066394

3149740097400143=6796001.131667

01


2
Errr, я був готовий проголосувати за це, і тоді я дійшов до Ну, для тих, хто вже народився, що легко. Це або 0, або 1. Ні.
mattdm

Я думаю, це трохи залежить від інтерпретації ймовірностей. Припустимо, я перекинув монету. Я подивився на це і знаю результат (наприклад, голови). Ви стоїте поруч зі мною, але не бачили результату. Яка ймовірність того, що монета показує голови (для вас, для мене, "об'єктивно")? У наведеному вище прикладі: для даної (народженої) людини ймовірність дорівнює 0 або 1 (якщо припустити, що він знає, в яку дату він народився). Якщо ви обираєте людину навмання, і вам довелося вгадати його день народження, ймовірність того, що це буде 29 лютого, - це знову ж таки емпіричне питання.
data_enthusiast

1

Я помітив, що більшість відповідей вище розглядають це шляхом обчислення кількості високосних днів за певний період. Існує простіший спосіб отримати відповідь на 100% точно за визначенням:

Ми використовуємо високосні роки для пристосування звичайного (365 дня) календаря до середнього тропічного року (ака середнього сонячного року). Середній тропічний рік "- це час, який Сонце потребує, щоб повернутися до тієї ж позиції в циклі пір року, як видно із Землі" (Вікіпедія). Тропічний рік незначно змінюється, але середній (середній) тропічний рік становить ПРО 365,24667.

Якщо вихідні дні є правильними, то шанс випадково вибраного дня, який є високосним днем, є ((тропічний рік) - (не високосний рік)) / тропічний рік

Підключивши приблизну кількість у нас, це (365.24667-365) /365.24667, або 0.24667 / 365.24667, або 675 на мільйон (0.0675%).

Це, однак, для випадково вибраного дня. Я гадаю, що це істотно перекошене батьками, які не хочуть пояснювати своїм дітям: "Ваш справжній день народження приходить лише раз на 4 роки".


3
Я не думаю, що це відповідає на поставлене запитання, тому що високосний день, 29 лютого, існує лише в певних календарних системах. Ці календарні системи використовувались лише в окремих суспільствах протягом останніх історичних епох. Наприклад, це питання не зрозуміле для того, хто вважає час, використовуючи єврейський календар, у якого взагалі немає «лютого»! Більше того, навіть якщо ми припустимо календар з високосним днем, він все ще не вирішує невизначеність, яка пов'язана з розподілом вірогідності по днях.
Sycorax повідомляє про відновлення Моніки

@ user777, це не має значення. Якщо ви належите до культури, яка не визнає високосний день, все одно люди, народжені в наш високосний день.
Восьминіг

1
@ Октопод Якщо вони не народилися до жовтня 1582 року, місяця, коли було введено григоріанський календар. Питання не є достатньо конкретним, щоб можна було зрозуміти, яка група населення розглядається, і тому мій коментар є критично актуальним.
Sycorax каже, що повернеться до Моніки

@ user777, ти розщеплюєш волоски. Справа в тому, що григоріанський календар існує сьогодні, і його можна використовувати для розміщення кожного дня історії, незалежно від того, чи спостерігали вони його тоді.
Восьминіг

1
@Octopus Як ти знаєш, в чому справа?
Sycorax каже, що повернеться до Моніки

-4

Я запитав сестру, чий день народження - 29 лютого, і вона сказала: "Результатом мого власного емпіричного дослідження було те, що він очевидно 1:00".


Ну, схоже, це не оцінили. Помічено.
Джон Сміт
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.