Ймовірність, що п’ятеро дітей у тому ж класі мають однакове ім’я


10

На форумах по іменуванню немовлят майбутні батьки весь час повторюють версію свого Страху перед Дженніфер: "Я не хочу, щоб моя дитина була однією з п'яти у своєму класі з його ім'ям". Справа в тому, що жодне ім’я вже не наближається до такої популярності, і навіть у розпал манія Дженніфер ви не отримали п’ять із них у класі. Я хотів би відповісти цим батькам про те, наскільки малоймовірним буде таке збіг повторення імен.

Використовуючи обширні дані про дитяче ім’я для адміністрації соціального захисту ( https://www.ssa.gov/oact/babynames/limits.html ), хтось може сказати мені, як розібратися в шансах на те, що в США початковий клас матиме п'ять діти з тим же ім’ям? (Для простоти, під "однойменною назвою" я маю на увазі те саме написання, а під "шкільним класом" я маю на увазі, що всі діти народилися в одному році.) Я не вказую розмір класу, але він, безумовно, повинен бути більшим за 4 . :-)


1
Повідомлення про імена немовлят - це повторювана тема у блозі Ендрю Гельмана. У жодному з публікацій, які я знайшов на його сайті, він не обговорює ваше конкретне питання. Він посилається на "блог з іменем дитини", де ви, можливо, матимете більше шансів отримати відповідь. andrewgelman.com/2005/09/07/baby_name_blog
Майк Хантер

Я думаю, ви можете зв'язати щось разом, використовуючи багаточленний розподіл з імовірністю успіху скажімо, перші двадцять найменувань, витягнутих із даних перепису, таких як ця .
Антоні Пареллада

Чи надає SSA дані про кількість дітей, народжених з ім'ям? Я знаходжу лише інформацію про ранги, яка, очевидно, відкидає корисну інформацію.
Sycorax каже, що повернеться до Моніки

6
@AntoniParellada Я думаю, що реальність ситуації є ще більш тонкою: оскільки шкільна система США сильно відокремлена за рівнем доходу та раси, я думаю, що національна статистика буде поганою відповідністю фактичним аудиторіям.
Sycorax каже, що повернеться до Моніки

3
Коли я був учнем (малої) початкової школи, у нас було три Джона в дуже маленькому класі (я думаю, хлопців та дівчат разом було лише близько 14). Один рік ми поєднали з роком вище, щоб скласти один повнорозмірний клас ... і отримали четвертий Джон. Тепер Джон був досить поширеним тоді , але не всі , що загальне. (З точки зору оригінального випуску, три були б майже набридливі, як п’ять). Шанс дублювання певного імені багато разів був би дуже низьким, але ймовірність того, що якесь ім’я з'явиться кілька разів, буде набагато вище.
Glen_b -Встановіть Моніку

Відповіді:


9

Усі дані можна знайти тут . Кожне значення таблиці відображає ймовірність того, що за даними вибірки на 25 осіб з цього місця та року народження 5 з них поділять ім’я.

Метод : Я використовував Binomial PDF для кожного імені, щоб знайти ймовірність того, що в будь-якому даному класі на 25 осіб буде 5 людей, які поділилися іменем:

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

Пн(5+ кiгс сгодаrе наме)= намеск=5н(нк)piк(1-pi)н-к

П(Аi)П(Аi)

Оновлення: Як зазначають багато людей, існує значна розбіжність у часі та між штатами. Тож я запускав ту саму програму, на основі ДЕРЖАВНОЇ ДЕРЖАВИ та з часом. Ось результати (загальнодержавна ймовірність червона, окремі держави - чорні):

введіть тут опис зображення

Цікаво, що Вермонт (мій рідний штат) постійно був одним з найбільш вірогідних місць для цього протягом останніх десятиліть.


3
Будь-який шанс ви могли пояснити, як ви отримали ці номери? Вам не потрібно дуже тупо внизувати - у мене є ступінь бакалавра з математики, і я знаю, де шукати речі - але мені б дуже хотілося знати такі міркування, які насправді призводять до ймовірностей (натомість пристрасних зітхань).
JPmiaou

1
Це передбачає, що імена даються навмання з однаковими ймовірностями , що просто не відповідає дійсності . Також досвід у реальному житті показує, що набагато більше занять з дітьми, які мають однакові імена, ніж 1 на 200!
Тім

4
Я отримую трохи інші результати, але вони близькі. Однак це не варто обговорювати, оскільки географічні та часові розбіжності в результатах величезні. Відповідь змінилася на два порядки з 1910 року і змінюється на порядок масштабів серед штатів. Оскільки майже не є класу початкової школи з усієї США, модель випадкового відбору зі списку національних імен є недоцільною.
whuber

2
(1) Подивіться на інші роки в національному файлі, який ви завантажили. (2) Подивіться на файли стану, доступні на тому самому сайті.
whuber

2
Так, графік ймовірностей з часом є драматичним: почався стрімкий спад до 1980 року. Але різниця в державі дійсно дуже велика, як можна було б очікувати: назви різняться географічно і вони сильно групуються за етнічною приналежністю, доходами та іншими демографічними чинниками. (+1 за ваше розширене розслідування зміни стану та часу, BTW.)
whuber

0

будь ласка, дивіться наступний Python-скрипт для Python2.

Відповідь натхненна відповіддю Девіда С.

Моєю остаточною відповіддю було б - ймовірність знайти принаймні п’ять Якобів в одному класі, найімовірніше ім'я Якоба за даними https://www.ssa.gov/oact/babynames/limits.html "Національні дані "з 2006 року.

Ймовірність обчислюється відповідно до біноміального розподілу, імовірність Якова є ймовірністю успіху.

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

Макс. вірогідність принаймні п’яти дітей з таким іменем з 25: 4.7e-07 для імені Яків

Макс. вірогідність принаймні п’яти дітей з таким іменем з 50: 1.6e-05 для імені Яків, звичайно.

Макс. вірогідність принаймні п’яти дітей з таким іменем із 100: 0,00045, звичайно, на ім'я Яків.

В 10 разів такий же результат, як і у Девіда С. Дякую. (Моя відповідь не містить усіх імен, слід обговорити)


Ця відповідь не відображається на питання про шанс того, що якесь ім’я з’являється п’ять і більше разів у класі.
whuber

1
П(Аi)П(Аi)

2
Ні, ви не відповіли на запитання, як тільки ви його сформулювали. Шанс того, що якесь ім’я з’явиться п’ять і більше разів, набагато більше, ніж максимальний шанс того, що дане ім’я з’явиться п'ять і більше разів.
whuber

3
Як зазначає @whuber, "5 Jacobs" є слабкішим аргументом, ніж "5 якогось імені", але це може бути корисно в дискусіях з іменем немовляти: "Ось імовірність п'яти дітей з найпопулярнішим ім'ям. Ти не використовуючи найпопулярніше ім’я, тому ймовірність ще менше ".
JPmiaou

2
Це не зовсім так , тому що можливості не є взаємовиключними: у одного класу ви могли б мати 5 і більше Томас і 5 і більше Річардс ( а може бути, навіть 5 і більше Генріса). Отже, це верхня межа. @DavidC у коментарі стверджує, що такі події мають незначну ймовірність.
Scortchi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.