У визначенні проблеми чітко зазначено, що 8-бітове кодування символів - UTF-8. Це робить це тривіальною проблемою; все, що йому потрібно, - це трохи обертання для перетворення з однієї специфікації UTF на іншу.
Просто подивіться на кодування на цих сторінках Вікіпедії для UTF-8 , UTF-16 та UTF-32 .
Принцип простий - пройдіться через вхід і зіберіть 32-бітну кодову точку Unicode відповідно до однієї специфікації UTF, а потім випустіть кодову точку відповідно до іншої специфікації. Окремі кодові точки не потребують перекладу, як це потрібно для будь-якого іншого кодування символів; ось що робить цю просту проблему.
Ось швидка реалізація перетворення wchar_t
в UTF-8 і навпаки. Він передбачає, що вхідні дані вже правильно закодовані - тут застосовується стара приказка "Сміття всередину, сміття винесене". Я вважаю, що перевірку кодування найкраще робити окремим кроком.
std::string wchar_to_UTF8(const wchar_t * in)
{
std::string out;
unsigned int codepoint = 0;
for (in; *in != 0; ++in)
{
if (*in >= 0xd800 && *in <= 0xdbff)
codepoint = ((*in - 0xd800) << 10) + 0x10000;
else
{
if (*in >= 0xdc00 && *in <= 0xdfff)
codepoint |= *in - 0xdc00;
else
codepoint = *in;
if (codepoint <= 0x7f)
out.append(1, static_cast<char>(codepoint));
else if (codepoint <= 0x7ff)
{
out.append(1, static_cast<char>(0xc0 | ((codepoint >> 6) & 0x1f)));
out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
}
else if (codepoint <= 0xffff)
{
out.append(1, static_cast<char>(0xe0 | ((codepoint >> 12) & 0x0f)));
out.append(1, static_cast<char>(0x80 | ((codepoint >> 6) & 0x3f)));
out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
}
else
{
out.append(1, static_cast<char>(0xf0 | ((codepoint >> 18) & 0x07)));
out.append(1, static_cast<char>(0x80 | ((codepoint >> 12) & 0x3f)));
out.append(1, static_cast<char>(0x80 | ((codepoint >> 6) & 0x3f)));
out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
}
codepoint = 0;
}
}
return out;
}
Вище код працює як UTF-16 і UTF-32 введення, просто тому , що діапазон d800
через dfff
неприпустимі кодові точки; вони вказують на те, що ви декодуєте UTF-16. Якщо ви знаєте, що wchar_t
це 32 біти, ви можете видалити деякий код, щоб оптимізувати функцію.
std::wstring UTF8_to_wchar(const char * in)
{
std::wstring out;
unsigned int codepoint;
while (*in != 0)
{
unsigned char ch = static_cast<unsigned char>(*in);
if (ch <= 0x7f)
codepoint = ch;
else if (ch <= 0xbf)
codepoint = (codepoint << 6) | (ch & 0x3f);
else if (ch <= 0xdf)
codepoint = ch & 0x1f;
else if (ch <= 0xef)
codepoint = ch & 0x0f;
else
codepoint = ch & 0x07;
++in;
if (((*in & 0xc0) != 0x80) && (codepoint <= 0x10ffff))
{
if (sizeof(wchar_t) > 2)
out.append(1, static_cast<wchar_t>(codepoint));
else if (codepoint > 0xffff)
{
out.append(1, static_cast<wchar_t>(0xd800 + (codepoint >> 10)));
out.append(1, static_cast<wchar_t>(0xdc00 + (codepoint & 0x03ff)));
}
else if (codepoint < 0xd800 || codepoint >= 0xe000)
out.append(1, static_cast<wchar_t>(codepoint));
}
}
return out;
}
Знову ж таки, якщо ви знаєте, що wchar_t
це 32 біти, ви можете видалити деякий код із цієї функції, але в цьому випадку це не повинно мати жодної різниці. Вираз sizeof(wchar_t) > 2
відомий під час компіляції, тому будь-який гідний компілятор розпізнає мертвий код і видалить його.