Зворотна проблема з днем ​​народження при кількох зіткненнях


9

Припустимо, у вас був чужий рік з невідомою довжиною N. Якщо у вас є випадкова вибірка згаданих прибульців, і деякі з них діляться днями народження, чи можете ви використовувати ці дані для оцінки тривалості року?

Наприклад, у вибірці 100, у вас може бути дві трійки (тобто два дні народження, які поділяються трьома прибульцями) і п'ять пар і вісімдесят чотири одиночні. Оцінюючи N, абсолютний мінімум становить 91, а максимум - без обмежень, але як я можу знайти розумне очікуване значення?

Припущення включають такі речі, як "всі дні народження однаково ймовірні".

На відміну від іншого питання, на яке тут відповіли, в кімнаті відомі зіткнення. Будь-який достатньо довгий рік матиме велику ймовірність виникнення зіткнень для кімнати прибульців. Але дуже довгі роки матимуть низькі шанси будь-яких зіткнень, а короткі роки матимуть низькі шанси в декількох зіткненнях, таким чином забезпечуючи (теоретичний) діапазон для найбільш вірогідної тривалості року.


3
Моя відповідь на спеціальну версію цього питання легко узагальнює (використовуючи мультиноміальне розподіл): див. Stats.stackexchange.com/questions/252813 .
whuber

@Techhead різними способами! Очевидним підходом до оцінки параметрів є згадка про максимальну ймовірність.
Glen_b -Встановіть Моніку


1
@whuber Я бачив це питання та ваш коментар, але я не бачив, як застосувати більшість його до вибірки з відомими зіткненнями. Розгорнуту форму знайти не важко, але я не знаю, як би я знайшов логарифмічну суму.
Techhead

1
Я погоджуюся, що ваша версія є достатньо складною, тому її не слід закривати як дублікат.
whuber

Відповіді:


2

Величина очікування розподілу обчислюється як E(X)=pixi. Для цієї проблеми ми хочемо обчислити розподілN задавши деякі критерії зіткнення, або знайти E(N)=n=0pnn дано деякі критерії зіткнення, де pn=P(N=n).

Припустимо, у вас є деякі критерії зіткнення, як зазначено вище, і нехай qn бути ймовірністю дотримання критеріїв зіткнення з огляду на тривалість року n. Тоді qnїх можна знайти, просто поділивши кількість способів, яким можуть відповідати критерії зіткнення, на кількість способів впорядкування днів народження. Разqn знайдено для кожного можливого n, тоді єдиний фрагмент, якого не вистачає, - це переклад qn до pn.

Якщо припустити, що pn пропорційна qn, тоді pn=αqn. З тих пір n=0pn=1, αn=0qn=1 і α=1n=0qn. Тому нам просто потрібна формула для qn щоб вирішити цю проблему.

Для вашого прикладу спочатку знайдемо кількість способів даного критерію зіткнення N=n. Перший інопланетянин-одиночок може приземлитися в будь-який день, тому є nможливості. Наступний сингл може приземлитися в будь-який день, але день народження першого прибульця, тому єn1можливості. Виконуючи це протягом перших 84 синглів, ми отримуємоn(n1)(n2)...(n83)можливі способи цього можуть статися. Зауважте, у нас також є 5 пар і 2 трійки, тому "перший" прибулець для кожної групи не повинен приземлятися і на однотонних парах. Це призводить до аn(n1)(n2)...(n8452+1) способи цих прибульців не стикаються (незграбний синтаксис для легшого узагальнення пізніше).

Далі, другий інопланетянин для даної пари чи трійки має 91 вибір, у наступного - 90 тощо. Загальна кількість способів цього може відбутися, враховуючи дні народження перших 91 прибульців: 91(911)(912)...(917+1). Решта членів трійні повинні потрапити на дні народження пар, і ймовірність того, що це станеться76. Ми множимо ймовірності для цього всіх разом, щоб отримати загальну кількість можливих способів задоволення критеріїв зіткнення як:

rn=n(n1)...(n8452+1)(84+5+2)(84+5+21)...(84+1)(5+2)(5+1)

На даний момент закономірність зрозуміла, якщо у нас є a одинаки, b пар, і c трійки, замінимо 84 на a, 5 с b, і 2 с cщоб отримати узагальнену формулу. Я думаю, також зрозуміло, що кількість можливих способів влаштування днів народження в цілому єnm, де m - загальна кількість прибульців у проблемі. Тому ймовірність дотримання критеріїв зіткнення - це кількість способів виконання критеріїв зіткнення, поділене на кількість способів народження прибульців, абоqn=rnnm.

Ще одна цікава річ з’явилася у формулі rn. Дозволяєyn=n(n1)...(n(a+b+c)+1)=n!(n(a+b+c))!, і нехай zn - залишилася частина rn так що rn=ynzn. Зауважте, щоzn не залежить від n, тому ми можемо просто написати zn=zяк константа! З тих пірpн=qн/i=0qi, і qн=zуннм, ми можемо насправді фактору zіз суми в знаменнику. У цей момент він скасовує частину з чисельника, щоб отриматиpн=уннм/i=0(уiiм). Ми можемо спроститиун далі, якщо ми дозволимо с=а+б+c (або це можна вважати кількістю унікальних днів народження в групі прибульців), щоб ми отримали:

pн=н!(н-с)!нм/i=0(i!(i-с)!iм)

Зараз у нас є (досить) проста формула для pні, отже, (досить) проста формула для Е(N), де єдиним припущенням було таке П(N=н) пропорційна qн (ймовірність дотримання критеріїв зіткнення з огляду на це N=н). Я думаю, що це справедливо припущення, і хтось розумніший за мене може навіть довести, що це припущення пов'язане зП(N=н)слідуючи багаточленному розподілу. На цьому етапі ми можемо розрахуватиЕ(N) використовуючи числові методи або зробити деякі припущення наближення, як pн підійде 0 як н підходи .


Схоже, ви пропонуєте обчислити значення очікування на основі функції ймовірності, а не функції масової ймовірності. Це було навмисно?
Секст

2

Відмінна відповідь від Коді дає хороший спосіб висловити ймовірність функції N, кількість днів у році (або задній розподіл на основі плоскої попередньої) шляхом вирахування деякої частини ймовірності, незалежної від N.

У цій відповіді я хотів би записати це більш стисло, а також запропонувати спосіб обчислити максимум цієї функції ймовірності (а не очікувану величину, яку важче обчислити).


Функція ймовірності для N

Кількість способів скласти послідовність a+2b+3c дні народження з набору n дні народження, з обмеженням, що a - кількість одиноких днів народження, b дублювати дні народження та c потрійний день народження дорівнює

rn=(na+b+c)number of ways topick m unique birthdaysout of n days(a+b+c)!a!b!c!number of ways todistribute m birthdaysamong groups of size ab and c(a+2b+3c)!1!a2!b3!cnumber of ordered ways toarrange specific single, duplicate, and triplicatesamong the aliens =n!(nabc)!×(a+2b+3c)a!b!c!1!a2!b3!c

і лише перший термін праворуч залежить від н, тому, виділяючи інші терміни, ми закінчуємо простим виразом для функції ймовірності

L(n|a,b,c)=n(a+2b+3c)n!(nabc)!=nmn!(ns)!P(a,b,c|n)

де ми слідуємо позначенням від Коді і використовуємо m позначати кількість прибульців і s кількість унікальних днів народження.


Максимальна оцінка ймовірності для N

Ми можемо використовувати цю функцію ймовірності для отримання максимальної оцінки ймовірності N.

Зауважте, що

L(n)=L(n1)(n1n)mnns

і максимум відбудеться безпосередньо перед n для котрого

(n1n)mnns=1

або

s=n(1(11/n)m)

що для великих n приблизно (використовуючи ряд Лорана, який можна знайти замінивши x=1/n і написати серію Тейлора для x у пункті x=0)

sk=0l(mk)(n)k+O(n(l+1))

Використовуючи лише термін першого замовлення smm(m1)2n Ви отримуєте:

n1(m2)ms

Використовуючи також термін другого порядку smm(m1)2n+m(m1)(m2)6n2 Ви отримуєте:

n2(m2)+(m2)24(ms)(m3)2(ms)

Так у випадку з m=100 інопланетяни, серед яких є s=91 унікальні дні народження, які ви отримуєте за допомогою наближення n1550 і n2515.1215. Розв'язуючи рівняння чисельно, ви отримуєтеn=516.82 до якого ми округляємо n=516 щоб отримати MLE.

порівняння наближення з справжнім MLE

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.