У мене є файл в UTF-8, який містить тексти на декількох мовах. Дуже багато це імена людей. Мені потрібно конвертувати його в ASCII, і мені потрібен результат, щоб він виглядав максимально пристойно.
Існує багато способів підходу до перетворення від ширшого кодування до більш вузького. Найпростішим перетворенням було б замінити всі символи, що не належать до ASCII, на якийсь заповнювач, наприклад, "_". Якщо я знаю мову, в яку записаний файл, є додаткові можливості, наприклад, романізація.
Який інструмент або бібліотека мов програмування, доступні в Unix, можуть дати мені гідне (найкраще зусилля) перетворення з UTF-8 в ASCII?
Більшість тексту є європейськими, латинськими мовами.
iconv
і tr
, існує Unidecode . Я не знайомий з цим, але це може зробити все, що ви хочете, якщо ви можете використовувати Python.