Скільки інформації ви можете отримати з імені?


11

Ім'я: перше, можливо, середнє та прізвище.

Мені цікаво, скільки інформації ви можете отримати з імені, використовуючи загальнодоступні набори даних. Я знаю, що ви можете отримати наступне з будь-якого місця між низькою і високою ймовірністю (залежно від вхідних даних), використовуючи дані перепису в США: 1) Стать. 2) Гонка.

Наприклад, Facebook використовував саме це, щоб з гідним рівнем точності з’ясувати расовий розподіл користувачів свого сайту (https://www.facebook.com/note.php?note_id=205925658858).

Що ще можна видобувати? Я не шукаю нічого конкретного, це дуже відкрите запитання, щоб вгамувати мою цікавість.

Мої приклади є специфічними для США, тому ми будемо вважати, що ім'я - це ім'я того, хто знаходиться в США; але, якщо хтось знає про загальнодоступні набори даних для інших країн, я також більш ніж відкритий для них.

Я не зовсім впевнений, чи це правильне місце для цього, якщо це не так, я буду вдячний, якщо хтось міг би вказати мені на більш відповідне місце.

Сподіваюся, це цікаве питання, і це відповідне місце!


2
імовірно, ви могли б отримати щось і про географічне розташування, якщо ви могли отримати відповідні відповідні дані? Ви також можете використовувати інформацію про популярність імен з часом (google "майстер дитячих імен"), щоб зробити висновки про вік ...
Бен Болкер

1
Я з’єднав передане питання з дублікатом.

Відповіді:


12

Це не серйозна відповідь, але я просто згадав щось із книги, яку я прочитав рік тому. Є розділ Freakonomics, присвячений тому, що ви можете сказати про людину від імені. Розділ заснований на дослідницькій роботі автора Причини та наслідки виразно чорних назв

Я думаю, що я знайшов уривок або резюме до нього в цій статті

Дані показують, що в середньому людина з чітко вираженим чорним ім'ям - будь то жінка на ім'я Імані або чоловік на ім'я ДеШон - має гірший життєвий результат, ніж жінка на ім'я Молі або чоловік на ім'я Джейк. Але це не вина його імені. Якщо два чорношкірі хлопчики, Джейк Вільямс та ДеШон Вільямс, народжуються в одному районі та в одних і тих же сімейних та економічних обставинах, вони, ймовірно, матимуть подібні життєві результати. Але такі батьки, які називають свого сина Джейком, не прагнуть жити в одних мікрорайонах або поділяти економічні обставини з тими батьками, які називають свого сина Дешаном. І тому в середньому хлопчик на ім’я Джейк, як правило, заробляє більше грошей і отримує більше освіти, ніж хлопчик на ім’я ДеШон. DeShawn '


4

З першої назви прогнозують регіон, вік, статус першого іммігранта першого покоління. З прізвища можна було передбачити географічне розташування оригінального по батькові. Для повного імені ви могли б передбачити соціальний та економічний статус (Thurston Howell III).


+1 просто за першу згадку на цьому сайті про персонажа на острові Гілліган.
rolando2

4

Просто для доповнення до інших пропозицій тут, одним з найбільших джерел для сімейних даних є сукупність генеалогічних сайтів там. Я думаю, що більшість західних людей, мабуть, перераховані деяким членом сім’ї, віддаленим чи іншим чином на декількох з них, і будь-яке таке включення має зазвичай всеосяжне сімейне дерево, що додається до місць, реквізитів про народження тощо. Дуже інформативно.

Якщо ви співпадаєте з цими даними з графіками друзів у Facebook, оскільки люди, як правило, додають братів і сестер / двоюрідних братів (а також батьків / дітей при нагоді), то використовуйте локальні дані для виборчих ролей та каталогів, зазвичай ви можете точно визначити людей навіть із загальними іменами, і отримати напрочуд великий обсяг даних про них.


3

В останньому розділі Freakonomics (2005, Steven D. Levitt та Stephen J. Dubner) відбувається захоплююча дискусія про імена, особливо, оскільки вони стосуються соціально-економічного статусу та раси.

У них є список імен, які можуть або не можуть добре співвідноситися з аналізом прізвищ FB. Вони також описують, як вибір імені змінюється діахронічно (протягом часу).

Хто знає - ім'я вибору батьків може бути більш точним, ніж те, що люди повідомляють про перепис.


3

Ви маєте багато хороших пропозицій вище, тому я лише згадаю цікавий анекдот. Літній студент (нині видатний комп'ютерний науковець) у лабораторії корпоративних досліджень (який залишиться безіменним) переглянув дані з онлайн-телефонного каталогу компанії та побудував прогнозну модель рівня оплати праці, використовуючи символи n-грамів від імен. Найсильнішим передбачувачем було те, що ez_ вказав нижчий рівень оплати праці, я вважаю, що він не рекомендував говорити про ...


2

Напевно, ви могли дізнатися:

  1. Професія та, можливо, історія роботи, якщо хтось бере участь у будь-яких професійних дискусіях (поточну роботу зазвичай можна дізнатися з доменного імені електронною поштою чи підписом, пошук також виявить минулі)
  2. Родичі, якщо хтось підтримує профіль у соціальних мережах.
  3. Поточне місцезнаходження, принаймні до міста.
  4. Етнічне походження, якщо хтось має чітку назву (тобто, хтось на ім'я "Любомир", ймовірно, пов'язаний з однією зі слов'яноєвропейських країн тощо).
  5. Дата народження в соціальних мережах - люди, як правило, вітають людину з датою народження або навколо неї, і якщо вам пощастить, ви також отримаєте рік, коли людині виповниться 25, 30, 35 і т.д. якщо не особа, про яку йдеться.
  6. Освіта - від LinkedIn тощо.
  7. Хобі, улюблені спортивні команди тощо.
  8. Якщо хтось любитель домашніх улюбленців, він, мабуть, також має всіх своїх домашніх тварин у соціальних мережах.

Що означає btw, ви ніколи не повинні використовувати щось із переліченого списку для своїх паролів, секретних питань тощо.


Що з людьми, які мають те саме ім’я, як і ви ... там є ряд "Діна Хардінга", один з них був навіть професійним футболістом! "DeanHarding" на Twitter - це не я, є сотні "Діна Хардінга" на Facebook, тощо, тощо ...

Це, звичайно, залежить від випадковості. Зазвичай ви можете дізнатися, хто це за професією, місцем розташування тощо. Хоча я бачив випадки, коли було 3 особи з тим самим повним іменем, в одній професії і проживають приблизно в одній місцевості. Тоді, звичайно, стає складніше :)

2

Дарден і Робінсон (1976) намагалися знайти мовну структуру, яка керується асоціаціями людей щодо імен чоловіків. Вони попросили дві групи предметів (студенти соціології та військово-морські офіцери) оцінити набір загальних американських імен за семантичними відмінностями, такими як м'яко-жорсткий, загально-шляхетний та міський-сільський. Вони також просили судити про подібність між різними парами імен, і за допомогою валідації вони співвідносили засоби семантичних диференціалів з розмірами, які вони знайшли, як у трьох, так і в чотирьох D-рішеннях, використовуючи процедуру TORSCA MDS.

Автори виявили, що їх 3-D рішення приблизно відповідає класичному тріо Osgood про активацію, оцінку та потенцію. У чотирьох вимірах простір трохи краще вписується в дані, і тут вони інтерпретували структуру як залежну від "характеру", "зрілості", "товариськості" та "живучості", хоча ці шкала не здається так добре визначеною як автори запропонували. Одним з дивовижних висновків, отриманих в результаті дослідження, було те, що принаймні для цих двох невеликих зразків (n = 83 та 21) не з’явилося жодного виміру, який би відповідав різниці між заданим іменем та прізвиськом.

Дарден, Д.К., і Робінсон, штат Індіана (1976). Багатовимірне масштабування імен чоловіків: соціолінгвістичний підхід. Соціометрія, 39 , 4, 422-431.


1

Кількість інформації, яку можна знайти, різко змінюється, від простої раси та статі, до всілякої особистої інформації. Ваша найкраща ставка для отримання інформації буде на сайтах у соціальних мережах, таких як facebook, оскільки вони, як правило, надають більше інформації, ніж цензурні бази даних.


1

Існує досить широкий спектр інформації, яку ви можете отримати, залежно від джерел, якими ви користуєтесь. Дані перепису очевидні. Ви також можете отримати інформацію з Facebook, MySpace та інших сайтів соціальних мереж. Ви також можете, можливо, шукати в архівах державних новин, щоб згадати їх ім’я. Можливо, навіть ті майнові сайти з власністю, які мають деякі штати.

Якщо ви хочете в реальному світі приклад того, що можна зробити, подивіться на pipl.com


Не могли б ви сказати нам, де (в будь-якій точці світу) ми можемо знайти дані перепису з іменами ?
whuber

1

Ви можете шукати ступеня, посвідчення водія, поліцейські записи (це правильний переклад?). За допомогою facebook ви можете знайти інформацію про хобі, спорт, музику, що сподобалась. Ви також можете шукати частку користувачів соціальних медіа інших користувачів з таким ім'ям. (Мені були б цікаві ці результати)



0

Якщо ви знаєте щось про місцезнаходження особи, одним із джерел інформації є бази даних реєстрації виборців. Багато баз даних про реєстрацію виборців є доступними (за окрему плату; є компанії, які їх купують та надають доступ до них онлайн-запитів за окрему плату). База даних реєстрації виборців може мати адресу особи та / або дату народження. Ця інформація може допомогти вам шукати особу в інших базах даних.

Однак існують обмеження щодо того, наскільки це допомагає. Це може бути корисно, якщо ви знаєте місто чи округ, де живе людина, і якщо їх ім’я є досить незвичним. Але якщо це загальна назва, або якщо ви не знаєте, де вони живуть, це, ймовірно, не допоможе вам.


0

Одним з найбільших джерел для загальнодоступних даних, включаючи безліч інших корисних атрибутів, є офіс повітових діловодів для обліку прав власності. випуск стосується об'єднання даних даних ... деякі штати надають центральну базу даних, а інші - не.


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.