Існують деякі підходи, які краще працюватимуть для деяких мов, ніж для інших. Наприклад, soundex (і інший мені опис ) був розроблений для вимови англійською мовою імен. З Soundex,Michael стає M240. Це має кілька кроків:
- Перший лист ізольовані. (
M і ichael)
- Усі голосні звуки видалено із залишку (
M і chl)
- Приголосні замінюються
- Ліві нульові колодки.
Угруповання приголосних перетворення засновані на їх фонетичного подібності - B, F, Pі Vвсі карти в1 .
І в цьому є різні варіанти . Це особливо корисно в генеалогії, де написання імені може змінюватися з часом, але вимова залишається подібною.
Також є такі підходи, як рейтинг матчів, який розроблявся авіакомпаніями для імен (а не американської генеалогії).
Кодування підходу до оцінки відповідності (MRA):
- Видаліть усі голосні голосні (
Michaelстає MchlіAnthony стає Anthny)
- Видаліть другу константу будь-якого парного
- Якщо рядок довший 6 символів, зменшіть решту рядка до 6 символів, взявши перші три та останні три.
Повну специфікацію для цього можна знайти на archive.org - зауважте, що вона "не мала" (друкована форма - 214 сторінок).
У порівнянні має поріг відповідності на основі того, як довго текст.
Є й інші фонетичні алгоритми .
Отож, я б закликав вас це зробити або прийняти звукову передачу такою, якою є, прийняти підхід до оцінювання відповідності таким, який є, або змінити звукову програму на основі румунських і польських приголосних .
Пам'ятайте , що з Soundex, приголосні згруповані (у польській мові, m, n,ɲ є все носові приголосні повинні бути згруповані, і ви, швидше за все , група губні, зубні і альвеолярні вибухові - будь вони глухими або озвучує разом - як належне, я не знаю польську, тому не знаю, чи я просто кажу те, що там не відповідає дійсності).
Потім просто прикрийте всі імена в базі даних для двох різних саунд-файлів і з’ясуйте, які імена мають найменший набір зіткнень на різних мовах. Це дає чіткі назви. Отже, Smithце не відображається як Smyth.
Це, однак, вирішує лише "ім'я, що може зіткнутися з іншими іменами та бути невірним". Це не стосується іншого способу "імені, почутого правильно, записаного неправильно", і для цього слід зосередити свою увагу на загальних назвах.
Наприклад, Michaelбула дуже поширеною назвою в США з початку 1950-х до кінця 1970-х. Це було дуже популярно . Однак чомусь ім'я Michealбуло набуло популярності у 50-х роках (дісталося до 83-ї найпоширенішої назви на своєму піку). І я впевнений, що люди на ім’я Michealпостійно отримували свою назву неправильно.
Таким чином, вам слід зосередитись на іменах, де є одне ім’я, яке домінує над популярністю імені для заданої вимови. Поглянувши на іншому споживач даних для імен по роках, ви можете побачити , що імена , що починаються з джемом ... для хлопчика безлад з Jamaal, Jamal, Jamarта іншими. Між іншим, ці імена мають дещо різні звукові файли для американських ( J540, J540і J560- lі rє в різних групах, навіть якщо вони тісно пов'язані в фонетиці). Однак для когось із, скажімо, Японії, є лише один звук у фонетичній області, деl іrвимовляються американською англійською мовою. Це також може спричинити виклик з провідними приголосними, використовуючи звуковий сигнал, про який слід знати (я колись працював з японкою, яка називала себе Різа (з «R»), а не Ліза як румунізація її японського імені).
Ви зауважите, що мої приклади - для США. Ці дані легко доступні. Мабуть, є деякі речі для Польщі та Угорщини , і лише натякає на спільність угорського імені ... Я підозрюю, що пошук іншою мовою, крім англійської, може бути корисним.
Отже, з огляду на звукову передачу назви, декілька зіткнень і власне написання є в наборі зіткнень. Переважно, це загальна назва. Дивлячись на цей угорський список, ви Krisztián, мабуть, отримаєте неправильні написання, хоча, що Zoltánменш ймовірно, (№22 найпоширеніше ім’я дитини 2011 року в Угорщині!). Це сказало, що ви не можете помилитися Michael.