Ймовірність, що п’ятеро дітей у тому ж класі мають однакове ім’я

На форумах по іменуванню немовлят майбутні батьки весь час повторюють версію свого Страху перед Дженніфер: "Я не хочу, щоб моя дитина була однією з п'яти у своєму класі з його ім'ям". Справа в тому, що жодне ім’я вже не наближається до такої популярності, і навіть у розпал манія Дженніфер ви не отримали п’ять із них у класі. Я хотів би відповісти цим батькам про те, наскільки малоймовірним буде таке збіг повторення імен.

Використовуючи обширні дані про дитяче ім’я для адміністрації соціального захисту ( https://www.ssa.gov/oact/babynames/limits.html ), хтось може сказати мені, як розібратися в шансах на те, що в США початковий клас матиме п'ять діти з тим же ім’ям? (Для простоти, під "однойменною назвою" я маю на увазі те саме написання, а під "шкільним класом" я маю на увазі, що всі діти народилися в одному році.) Я не вказую розмір класу, але він, безумовно, повинен бути більшим за 4 . :-)

probability combinatorics

— JPmiaou
джерело

Повідомлення про імена немовлят - це повторювана тема у блозі Ендрю Гельмана. У жодному з публікацій, які я знайшов на його сайті, він не обговорює ваше конкретне питання. Він посилається на "блог з іменем дитини", де ви, можливо, матимете більше шансів отримати відповідь. andrewgelman.com/2005/09/07/baby_name_blog

— Майк Хантер

Я думаю, ви можете зв'язати щось разом, використовуючи багаточленний розподіл з імовірністю успіху скажімо, перші двадцять найменувань, витягнутих із даних перепису, таких як ця .

— Антоні Пареллада

Чи надає SSA дані про кількість дітей, народжених з ім'ям? Я знаходжу лише інформацію про ранги, яка, очевидно, відкидає корисну інформацію.

— Sycorax каже, що повернеться до Моніки

@AntoniParellada Я думаю, що реальність ситуації є ще більш тонкою: оскільки шкільна система США сильно відокремлена за рівнем доходу та раси, я думаю, що національна статистика буде поганою відповідністю фактичним аудиторіям.

— Sycorax каже, що повернеться до Моніки

Коли я був учнем (малої) початкової школи, у нас було три Джона в дуже маленькому класі (я думаю, хлопців та дівчат разом було лише близько 14). Один рік ми поєднали з роком вище, щоб скласти один повнорозмірний клас ... і отримали четвертий Джон. Тепер Джон був досить поширеним тоді , але не всі , що загальне. (З точки зору оригінального випуску, три були б майже набридливі, як п’ять). Шанс дублювання певного імені багато разів був би дуже низьким, але ймовірність того, що якесь ім’я з'явиться кілька разів, буде набагато вище.

— Glen_b -Встановіть Моніку

Відповіді:

Усі дані можна знайти тут . Кожне значення таблиці відображає ймовірність того, що за даними вибірки на 25 осіб з цього місця та року народження 5 з них поділять ім’я.

Метод : Я використовував Binomial PDF для кожного імені, щоб знайти ймовірність того, що в будь-якому даному класі на 25 осіб буде 5 людей, які поділилися іменем:

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

П_{н} (5 + к i г с с год а r е н а м е) = \sum_{\forall н а м е с} \sum_{к = 5}^{н} (\binom{н}{к}) p_{i}^{к} (1 - p_{i})^{н - к}

$P_n(5+\ kids\ share\ name) = \sum_{\forall\ names}\sum_{k=5}^n{n \choose k}p_i^k(1-p_i)^{n-k}$

$P(\bigcup A_i) \approx \sum P(A_i)$

Оновлення: Як зазначають багато людей, існує значна розбіжність у часі та між штатами. Тож я запускав ту саму програму, на основі ДЕРЖАВНОЇ ДЕРЖАВИ та з часом. Ось результати (загальнодержавна ймовірність червона, окремі держави - чорні):

Цікаво, що Вермонт (мій рідний штат) постійно був одним з найбільш вірогідних місць для цього протягом останніх десятиліть.

— Девід С
джерело

Будь-який шанс ви могли пояснити, як ви отримали ці номери? Вам не потрібно дуже тупо внизувати - у мене є ступінь бакалавра з математики, і я знаю, де шукати речі - але мені б дуже хотілося знати такі міркування, які насправді призводять до ймовірностей (натомість пристрасних зітхань).

— JPmiaou

Це передбачає, що імена даються навмання з однаковими ймовірностями , що просто не відповідає дійсності . Також досвід у реальному житті показує, що набагато більше занять з дітьми, які мають однакові імена, ніж 1 на 200!

— Тім

Я отримую трохи інші результати, але вони близькі. Однак це не варто обговорювати, оскільки географічні та часові розбіжності в результатах величезні. Відповідь змінилася на два порядки з 1910 року і змінюється на порядок масштабів серед штатів. Оскільки майже не є класу початкової школи з усієї США, модель випадкового відбору зі списку національних імен є недоцільною.

— whuber

(1) Подивіться на інші роки в національному файлі, який ви завантажили. (2) Подивіться на файли стану, доступні на тому самому сайті.

— whuber

Так, графік ймовірностей з часом є драматичним: почався стрімкий спад до 1980 року. Але різниця в державі дійсно дуже велика, як можна було б очікувати: назви різняться географічно і вони сильно групуються за етнічною приналежністю, доходами та іншими демографічними чинниками. (+1 за ваше розширене розслідування зміни стану та часу, BTW.)

— whuber

будь ласка, дивіться наступний Python-скрипт для Python2.

Відповідь натхненна відповіддю Девіда С.

Моєю остаточною відповіддю було б - ймовірність знайти принаймні п’ять Якобів в одному класі, найімовірніше ім'я Якоба за даними https://www.ssa.gov/oact/babynames/limits.html "Національні дані "з 2006 року.

Ймовірність обчислюється відповідно до біноміального розподілу, імовірність Якова є ймовірністю успіху.

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

Макс. вірогідність принаймні п’яти дітей з таким іменем з 25: 4.7e-07 для імені Яків

Макс. вірогідність принаймні п’яти дітей з таким іменем з 50: 1.6e-05 для імені Яків, звичайно.

Макс. вірогідність принаймні п’яти дітей з таким іменем із 100: 0,00045, звичайно, на ім'я Яків.

В 10 разів такий же результат, як і у Девіда С. Дякую. (Моя відповідь не містить усіх імен, слід обговорити)

— feinmann
джерело

Ця відповідь не відображається на питання про шанс того, що якесь ім’я з’являється п’ять і більше разів у класі.

— whuber

P (⋃ A_{i}) \approx \sum P (A_{i})

$P(\bigcup A_i) \approx \sum P(A_i)$

Ні, ви не відповіли на запитання, як тільки ви його сформулювали. Шанс того, що якесь ім’я з’явиться п’ять і більше разів, набагато більше, ніж максимальний шанс того, що дане ім’я з’явиться п'ять і більше разів.

— whuber

Як зазначає @whuber, "5 Jacobs" є слабкішим аргументом, ніж "5 якогось імені", але це може бути корисно в дискусіях з іменем немовляти: "Ось імовірність п'яти дітей з найпопулярнішим ім'ям. Ти не використовуючи найпопулярніше ім’я, тому ймовірність ще менше ".

— JPmiaou

Це не зовсім так , тому що можливості не є взаємовиключними: у одного класу ви могли б мати 5 і більше Томас і 5 і більше Річардс ( а може бути, навіть 5 і більше Генріса). Отже, це верхня межа. @DavidC у коментарі стверджує, що такі події мають незначну ймовірність.

— Scortchi