Ось питання, яке, на мою думку, можна було б вирішити за допомогою деякого видобутку даних та складного алгоритму, але я не знаю як. Будь-які вказівки щодо того, які джерела даних використовувати та який алгоритм застосовувати, вітаються.
Передумови: Я румуно-угорський, який очікує дитину з польсько-українською і не дуже налаштований на думку, в якій країні ми хочемо оселитися. Як ви можете очікувати, вибір даного імені має надзвичайно важливе значення та гарячу дискусію. З мого боку, я все ще травмований усіма клопотами, які мені довелося пережити, коли хтось неправильно написав моє ім’я, коли я переїжджав з однієї країни в іншу. Наприклад, якби вас назвали "Адріан", вас б благословили в Румунії, лише якщо ви дізнаєтесь, що ви закінчилися бути "Adri e n" - це якийсь офіційний французький документ. Тому моя єдина вимога - зробити вкрай малоймовірним, щоб ім’я дитини було неправильно написано в деяких європейських країнах.
Постановка проблеми: Враховуючи набір країн, наприклад, Франція, Німеччина, Швеція, Польща та Румунія, знайдіть список заданих імен, які при правильному вимові місцеві жителі навряд чи будуть неправильно написані.
Більш формально: Нехай p (c, n) є функцією, яка повертає ймовірність неправильного написання імені n у країні c . З огляду на C безліч країн і p₀ ймовірності, знайти г N набір даних імен, такий , що
для всіх n ∈ N і c ∈ C , p (c, n) <p₀
Початкові думки : Основна проблема полягає в тому, як реалізувати p (c, n) . Можна спробувати наблизити це до евристики. Очевидно, що ім'я, ймовірно, буде написано неправильно у двох випадках:
- У цій країні він мало використовується.
- Це схоже на іншу назву, яка не так часто використовується в цій країні.
Я не впевнений, як я міг би скористатися Інтернетом, наприклад, Вікіпедією, щоб ефективно відповісти на ці два питання. Як можна перерахувати лише досить часто використовувані імена в країні? Як можна було б шукати аналогічно написаних?