У Unicode деякі комбінації символів мають більше одного представлення.
Наприклад, символ ä може бути представлений як
- "ä", тобто кодова точка U + 00E4 (два байти
c3 a4
в кодуванні UTF-8), або як - "ä", тобто дві кодові точки U + 0061 U + 0308 (три байти
61 cc 88
в UTF-8).
Згідно стандарту Unicode, два представлення є рівнозначними, але в різних "нормалізаційних формах", див. UAX № 15: Форми нормалізації Unicode .
У наборі інструментів unix є всілякі засоби перетворення тексту, sed , tr , iconv , Perl. Як я можу зробити швидке та просте перетворення NF у командному рядку?
perl -MUnicode::Normalization -e 'print NFC(
... е, що зараз приходить сюди ...