Unicode UTF Converter

Мета полягає у створенні повністю сумісного перетворювача між офіційними кодуваннями Unicode, як зазначено у поширених питаннях UTF . Зважаючи на те, що це зосереджено на Unicode, я прийму відповідь з найнижчим числом байтів, використовуючи найкращі можливі з кодованих кодувань (що, мабуть, буде UTF-8, якщо, можливо, ви не запрограмуєте його в APL). Я прошу вибачення за довгий пост, але багато цього пояснює кодування, до якого також можна отримати доступ в офіційній специфікації (pdf, розділ 3.9 D90 - D92) або Вікіпедії .

Технічні умови

Якщо в будь-який момент ваша мова, що вибирається, не може точно відповідати вимозі, замініть її тим, що дотримується духу наведених правил. Напр. не кожна мова має вбудовані масиви, функції тощо.

Немає використання бібліотек / функцій рядків або кодування бібліотек / функцій. Сенс цього коду в гольфі полягає в реалізації перетворювача за допомогою маніпуляції бітом / байтом. Однак використання самих рядків у якості символу чи байтового масиву дозволяється. О, і жодні дзвінки в ОС, які також виконують перетворення.
Перетворювач - це функція, яка прийме три параметри: масив байтів, що представляє кодовану вхідну рядок, і кодування "введення" та "вихід", представлені у вигляді чисел. Довільно будемо призначати UTF-8, UTF-16, UTF-16BE, UTF-16LE, UTF-32, UTF-32BE, and UTF32LEчисла від 0 до 6 в такому порядку. Немає необхідності перевіряти, чи є число, < 0або > 6ми вважатимемо ці параметри правильними. Перетворювач поверне дійсний байтовий масив у потрібному вихідному кодуванні.
Ми будемо використовувати нульовий символ ( U+0000) як строковий термінатор. Нічого після цього не має значення. Будемо вважати, що вхідний масив десь має нульовий символ, тому вам не потрібно робити перевірку меж.
Відповідно до FAQ , якщо масив вхідних байтів недійсний для оголошеного кодування, ми повинні подати сигнал про помилку. Ми зробимо це одним із наступних способів: збоїмо програму, кинемо виняток, повернемо null або повернемо масив, у перших чотирьох байт якого 0 (щоб його можна було розпізнати як U+0000у кожному кодуванні).

Кодування

Потрібно дотримуватися офіційних специфікацій, але Вікіпедія надає хороше (і наскільки я вважаю правильним) пояснення кодувань, і я підсумую їх тут для повноти. Зауважте, що UTF-16 і UTF-32 мають варіанти для витривалості .

UTF-32, UTF-32LE, UTF-32BE

Для найпростішого кодування, кожна кодова точка просто кодується в 4 байти, що дорівнює її числовому значенню. LE / BE являє собою ендіанство (маленький ендіан / великий ендіан).

UTF-16, UTF-16LE, UTF-16BE

Кодові точки з U+0000 - U+FFFFкодуються в 2 байти, що дорівнює його числовому значенню. Більші значення кодуються за допомогою пари сурогатів, які є зарезервованими значеннями U+D800 - U+DFFF. Отже, для кодування очок, більших за U+FFFF, можна використовувати наступний алгоритм (безсоромно скопіювати з Вікіпедії ):

0x010000 віднімається від кодової точки, залишаючи 20-бітове число в діапазоні 0..0x0FFFFF.

Десять кращих бітів (число в діапазоні 0..0x03FF) додаються до 0xD800, щоб дати першу кодову одиницю або сурогат свинцю, який буде знаходитись у діапазоні 0xD800..0xDBFF [...].

Низькі десять біт (також у діапазоні 0..0x03FF) додаються до 0xDC00 для отримання другої кодової одиниці або сурогату сліду, який буде знаходитися в діапазоні 0xDC00..0xDFFF [...].

UTF-8

Кодові точки з U+0000 - U+007Fкодуються як 1 байт, що дорівнює його числовому значенню. З U+0080 - U+07FFних кодуються як 110xxxxx 10xxxxxx, U+0800 - U+FFFFце 1110xxxx 10xxxxxx 10xxxxxx, більш високі значення 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx. У x«s є бітами з числового значення точки коди.

БОМ

Позначка порядку байтів (BOM, U+FEFF) використовується в якості першого кодового пункту для вказівки на витривалість. Виконуючи вказівки щодо поширених запитань щодо BOM , BOM буде використовуватися наступним чином: бо UTF-8, UTF-16 and UTF-32це необов'язково. Якщо BOM відсутній UTF-16або UTF-32вважається великим ендіаном. BOM не повинен з'являтися вUTF-16LE, UTF-16BE, UTF-32LE and UTF-32BE .

Поширені підводні камені, що спричиняють недійсний UTF

Різні речі можуть спричинити неправильність послідовності байтів UTF.

UTF-8 і UTF-32: Пряме кодування сурогатних кодів ( U+D800 - U+DFFF) або кодових точок більше, ніж U+10FFFF.
UTF-8: багато недійсних послідовностей байтів.
UTF-16: парні сурогати або неправильно парні сурогати.
BOM: Потрібно використовувати, як зазначено в розділі кодування. Зверніть увагу, що при виведенні UTF-16або UTF-32(не вказана притаманна ендіантність) ви можете вибрати, але з невеликим ендіаном, ви повинні включити BOM.

Зауважте, що не символи та непризначені кодові точки (обидва відмінні від сурогатів) повинні трактуватися як звичайні символи.

code-golf unicode

— DPenner1
джерело

"Немає використання бібліотек / функцій рядків або кодування бібліотек / функцій." Як щодо справжніх вбудованих модулів. В АПЗ ''⎕R''⍠'InEnc' 'UTF16BE' 'OutEnc' 'UTF8-BOM'.

— Адам

@NBZ Це заборонено, оскільки суть цього виклику полягає у здійсненні поведінки, яку вони надають.

— DPenner1

Примітка відповідачам: я більш-менш відмовився від цього питання, але, враховуючи нещодавнє відновлення інтересу, у найближчі дні мені знадобиться певний час, щоб розглянути відповіді.

— DPenner1

Відповіді:

C ++, (UTF-8) 971 байт

#include<cstdint>
using u=uint8_t;using U=uint32_t;U i,o,x,b,m;U R(u*&p){x=*p++;if(!i){m=0;while(128>>m&x)++m;if(m>1)for(x&=127>>m;--m;)x=x<<6|((*p&192)-128?~0:*p++&63);return m?x=~0:x;}else if(i<3){x<<=8;x+=*p++;}else if(i<4){x+=*p++<<8;}else if(i<6){x<<=24;x+=*p++<<16;x+=*p++<<8;x+=*p++;}else{x+=*p++<<8;x+=*p++<<16;x+=*p++<<24;}return x;}U r(u*&p){U x0=R(p);if(i&&i<4&&x>>10==54)x=R(p)>>10==55?(x0<<10)+x-56613888:~0;if(!b++){if(x==65279)if(!i||i%3==1)r(p);else x=~0;else if(x==65534&&i==1)i=3,r(p);else if(x==4294836224&&i==4)i=6,r(p);}return x>1114111||x>>11==27?x=~0:x;}void w(U x,u*&p){if(!o){if(x<128)*p++=x;else{for(m=0;~63<<m&x;m+=6);for(*p++=~127>>m/6|x>>m;m;)*p++=128|x>>(m-=6)&63;}}else if(o<4&&x>65535)x-=65536,w(55296|x>>10,p),w(56320|x&1023,p);else if(o<3)*p++=x>>8,*p++=x;else if(o<4)*p++=x,*p++=x>>8;else if(o<6)*p++=x>>24,*p++=x>>16,*p++=x>>8,*p++=x;else*p++=x,*p++=x>>8,*p++=x>>16,*p++=x>>24;}int t(u*&p,u*&q){for(b=0,x=1;U(x+x);)w(r(p),q);return x;}

Прочитану нижче програму можна конденсувати до вищевказаної форми, фільтруючи її за допомогою наступної команди Perl:

perl -p0 -e 's!//.*!!g;s/\s+/ /g;s/ \B|\B //g;s/0x[\da-f]+/hex($&)/ige;s/#include<[^<>]+>/\n$&\n/g;s/^\n+//mg'

Наведена вище команда

видаляє коментарі
видаляє зайвий пробіл
перетворює шістнадцяткові букви в десятковий
відновлює нові рядки навколо #includeрядків

Читаний код

#include <cstdint>
using u = uint8_t;
using U = uint32_t;

U   i,                          // input encoding
    o,                          // output encoding
    x,                          // last read value
    b,                          // char count(BOM only valid when b==0)
    m;                          // temporary variable for measuring UTF-8

//   Encodings:
// 0 UTF-8
// 1 UTF-16
// 2 UTF-16BE
// 3 UTF-16LE
// 4 UTF-32
// 5 UTF-32BE
// 6 UTF-32LE

// Read a character or UTF-16 surrogate
U R(u*& p) {
    x = *p++;
    if (!i) { // UTF-8
        m=0; while (128>>m&x) ++m; // how many bytes?
        if (m>1) for (x&=127>>m; --m; ) x = x<<6 | ((*p&192)-128?~0:*p++&63);
        return m ? x=~0 : x;
    } else if (i<3) { // UTF-16, UTF-16BE
        x<<=8; x+=*p++;
    } else if (i<4) { // UTF-16LE
        x+=*p++<<8;
    } else if (i<6) { // UTF-32, UTF-32BE
        x<<=24; x+=*p++<<16; x+=*p++<<8; x+=*p++;
    } else { // UTF-32LE
        x+=*p++<<8; x+=*p++<<16; x+=*p++<<24;
    }
    return x;
}

// Read a character, combining surrogates, processing BOM, and checking range
U r(u*& p) {
    U x0 = R(p);
    if (i && i<4 && x>>10==54)
        x = R(p)>>10==55 ? (x0<<10)+x-56613888: ~0; // 56613888 == 0xd800<<10 + 0xdc00 - 0x10000
    if (!b++) {                 // first char - is it BOM?
        if (x==0xFEFF)
            if (!i || i%3==1)
                r(p); // BOM in UTF-8 or UTF-16 or UTF-32 - ignore, and read next char
            else
                x = ~0; // not allowed in these modes
        else if (x==0xFFFE && i==1)
            i=3,r(p); // reversed BOM in UTF-16 - change to little-endian, and read next char
        else if (x==0xFFFE0000 && i==4)
            i=6,r(p); // reversed BOM in UTF-32 - change to little-endian, and read next char
    }
    return x>0x10ffff || x>>11==27 ? x=~0 : x;
}


// Write character(assumed in-range)
void w(U x, u*& p) {
    if (!o) { // UTF-8
        if (x<128) *p++=x;        // ASCII
        else {
            for (m=0; ~63<<m&x; m+=6); // how many bits?
            for (*p++=~127>>m/6|x>>m; m; ) *p++ = 128|x>>(m-=6)&63;
        }
    } else if (o<4 && x>65535)  // UTF-16 surrogate
        x-=65536, w(0xD800|x>>10,p), w(0xDC00|x&0x3FF,p);
    else if (o<3)  // UTF-16, UTF-16BE
        *p++=x>>8, *p++=x;
    else if (o<4)  // UTF-16LE
        *p++=x, *p++=x>>8;
    else if (o<6)  // UTF-32, UTF-32BE
        *p++=x>>24, *p++=x>>16, *p++=x>>8, *p++=x;
    else  // UTF-32LE
        *p++=x, *p++=x>>8, *p++=x>>16, *p++=x>>24;
}

// Transcode
int t(u*& p, u*& q)                  // input, output
{
    for (b=0,x=1;U(x+x);)    // exit condition is true only for x==-x, i.e. 0 and ~0
        w(r(p),q);
    return x;
}

Функція, яку потрібно викликати, полягає в тому t(), що кодування вводу та виводу передаються у глобальних змінних iі, oвідповідно, і pвказують на байти введення, які повинні бути завершені в нуль. qвказує на вихідний буфер, який буде перезаписаний і повинен бути достатньо великим для результату - немає спроби уникнути перевиконання буфера.

Я сподіваюся, що коментарі до коду є достатньо пояснювальними - запитайте нижче, чи хтось із них занадто виразний (але докладіть зусиль спочатку!).

Я склав суттєвий набір тестів, розробляючи цю відповідь; Я включаю його нижче для вигоди інших учасників та для документального підтвердження моїх вимог:

Тестові функції

#include <vector>
#include <iostream>

std::ostream& operator<<(std::ostream& out, const std::vector<u>& v)
{
    out << "{ ";
    for (int i: v) out << i << " ";
    out << "}";
    return out;
}

int test_read(int encoding, std::vector<u> input, U expected)
{
    b = 0;
    i = encoding;
    auto d = input.data();
    U actual = r(d);
    if (actual == expected) return 0;
    std::cerr << std::hex << "Decoding " << encoding << "; " << input << " gave " << actual
              << " instead of " << expected << std::endl;
    return 1;
}

int test_write(int encoding, U input, std::vector<u> expected)
{
    o = encoding;
    u buf[20], *p = buf;
    w(input, p);
    std::vector<u> actual(buf,p);
    if (expected == actual) return 0;
    std::cerr << std::hex << "Encoding " << encoding << "; " << input << " gave " << actual
              << " instead of " << expected << std::endl;
    return 1;
}

int test_transcode(int ienc, std::vector<u> input, int oenc, std::vector<u> expected)
{
    b = 0;
    i = ienc; o = oenc;
    u buf[200], *p = buf, *d = input.data();
    int result = t(d, p);
    std::vector<u> actual(buf,p);
    if (result ? expected.empty() : expected == actual) return 0;
    std::cerr << std::hex << "Encoding " << ienc << " to " << oenc << "; " << input << " gave " << actual
              << " instead of " << expected << std::endl;
    return 1;
}

Тестовий набір

static const U FAIL = ~0;
int main() {
    int e = 0;                        // error count
    // UTF-8
    e += test_read(0, { 128 }, FAIL); // unexpected continuation
    e += test_read(0, { 128, 1 }, FAIL);
    e += test_read(0, { 128, 128 }, FAIL);
    e += test_read(0, { 192, 192 }, FAIL); // start without continuation
    e += test_read(0, { 192, 0 }, FAIL);
    e += test_read(0, { 224, 0 }, FAIL);
    e += test_read(0, { 224, 192 }, FAIL);
    e += test_read(0, { 0xf4, 0x90, 128, 128 }, FAIL); // Unicode maximum+1

    e += test_read(0, { 127 }, 127);
    e += test_read(0, { 192, 129 }, 1); // We accept overlong UTF-8
    e += test_read(0, { 0xc2, 128 }, 128);
    e += test_read(0, { 224, 128, 129 }, 1);
    e += test_read(0, { 0xef, 128, 128 }, 0xF000);
    e += test_read(0, { 0xef, 191, 191 }, 0xFFFF);
    e += test_read(0, { 0xf4, 128, 128, 128 }, 0x100000);
    e += test_read(0, { 0xf4, 0x8f, 191, 191 }, 0x10FFFF); // Unicode maximum

    e += test_read(0, { 0xEF, 0xBB, 0xBF, 127 }, 127); // byte-order mark

    e += test_write(0, 0, { 0 });
    e += test_write(0, 127, { 127 });
    e += test_write(0, 128, { 0xc2, 128 });
    e += test_write(0, 255, { 0xc3, 191 });
    e += test_write(0, 0xFFFF, { 0xef, 191, 191 });
    e += test_write(0, 0x10FFFF, { 0xf4, 0x8f, 191, 191 });

    // UTF-16
    e += test_read(1, { 0, 1 }, 1);
    e += test_read(1, { 0xd8, 0, 0xdc, 1 }, 0x10001);
    e += test_read(1, { 0xdb, 0xff, 0xdf, 0xff }, 0x10ffff);

    e += test_read(1, { 0xd8, 0, 0xd8, 1 }, FAIL); // mismatched surrogate
    e += test_read(1, { 0xd8, 0, 0, 1 }, FAIL); // mismatched surrogate
    e += test_read(1, { 0xdc, 0 }, FAIL);

    e += test_write(1, 1, { 0, 1 });
    e += test_write(1, 256, { 1, 0 });
    e += test_write(1, 0xffff, { 255, 255 });
    e += test_write(1, 0x10001, { 0xd8, 0, 0xdc, 1 });
    e += test_write(1, 0x10ffff, { 0xdb, 0xff, 0xdf, 0xff });

    // UTF-16LE
    e += test_write(3, 1, { 1, 0 });
    e += test_write(3, 256, { 0, 1 });
    e += test_write(3, 0x10001, { 0, 0xd8, 1, 0xdc });
    e += test_write(3, 0x10fffe, { 0xff, 0xdb, 0xfe, 0xdf });

    // UTF-16 byte-order mark
    e += test_read(1, { 0xFE, 0xFF, 0x0, 1 }, 1); // byte-order mark
    e += test_read(1, { 0xFF, 0xFE, 1, 0x0 }, 1); // reversed byte-order mark
    // disallowed byte-order marks
    e += test_read(2, { 0xFE, 0xFF }, FAIL);
    e += test_read(3, { 0xFF, 0xFE }, FAIL);
    // reversed byte-order mark is an unassigned character - to be treated like regular character, according to question
    e += test_read(2, { 0xFF, 0xFE }, 0xfffe);
    e += test_read(3, { 0xFE, 0xFF }, 0xfffe);

    // UTF-32
    e += test_read(4, { 0, 0, 0, 1 }, 1);
    e += test_read(4, { 1, 0, 0, 0 }, FAIL);
    e += test_write(4, 1, { 0, 0, 0, 1 });
    e += test_write(4, 0x10203, { 0, 1, 2, 3 });

    // UTF-32LE
    e += test_read(6, { 0, 0, 0, 1 }, FAIL);
    e += test_read(6, { 1, 0, 0, 0 }, 1);

    // UTF-32 byte-order mark
    e += test_read(4, { 0, 0, 0xFE, 0xFF,  0, 0, 0, 1 }, 1); // byte-order mark
    e += test_read(4, { 0xFF, 0xFE, 0, 0,  1, 0, 0, 0 }, 1); // reversed byte-order mark
    // disallowed byte-order marks
    e += test_read(5, { 0, 0, 0xFE, 0xFF }, FAIL);
    e += test_read(5, { 0xFF, 0xFE, 0, 0 }, FAIL);
    e += test_read(6, { 0, 0, 0xFE, 0xFF }, FAIL);
    e += test_read(6, { 0xFF, 0xFE, 0, 0 }, FAIL);

    e += test_transcode(1, { 1, 2, 0xFE, 0xFF, 0, 0 }, // That's not a BOM; it's a zwnj when not the first char
                        1, { 1, 2, 0xFE, 0xFF, 0, 0 });
    e += test_transcode(1, { 0xFF, 0xFE, 1, 2, 0, 0 }, // reversed byte-order mark implies little-endian
                        1, { 2, 1, 0, 0 });
    e += test_transcode(4, { 0xFF, 0xFE, 0, 0, 1, 2, 0, 0, 0, 0 }, // reversed BOM means little-endian
                        4, { 0, 0, 2, 1, 0, 0, 0, 0 });
    e += test_transcode(1, { 0xdb, 0xff, 0xdf, 0xff, 0, 0 }, // U+10ffff UTF-16 to UTF-8
                        0, { 0xf4, 0x8f, 191, 191, 0 });

    return e;
}

— Toby Speight
джерело

Данг .. C ++ обіграв Python.

— TickTock

Python - 1367 символів UTF-8

Добре! Це було надзвичайно важким питанням, оскільки велика кількість роботи, необхідна для розуміння та впровадження всіх специфікацій, але я вважаю, що в мене є правильна реалізація.

O,P,Q,R=65536,128,b'\xff\xfe\x00\x00',63
def A(x,y):assert x;return y
def B(x):
    o,c=[],0
    for b in x:
        if c:c,v=c-1,A(127<b<192,v<<6)|(b-P)
        else:
            c,v=(b>127)+(b>223)+(b>239),b
            if b>127:v=A(191<b<248,b&(R>>c))
        o+=[v][c:]
    return o[o[0]in(65279,O-2):]
def C(k):
    def o(x,s=None):
        for a,b in zip(x[k::2],x[1-k::2]):
            d=a|(b<<8)
            if s!=None:yield(A(56319<d<57344,d-56320)|(s<<10))+O;s=None
            elif 55295<d<57344:s=A(s<1024,d-55296)
            else:yield d
    return o
def D(x):n=(2,3,1)[[Q[:2],Q[1::-1],x[:2]].index(x[:2])];return C(n&1)(x[n&2:])
E=lambda a,b,c,d:lambda x:[L|(l<<8)|(m<<16) for L,l,m in zip(x[a::4],x[b::4],x[c::4])]
def F(x):n,m=((1,4),(-1,4),(-1,0))[[Q,Q[::-1],x[:4]].index(x[:4])];return E(*range(4)[::n])(x[m:])
S=lambda x,s=0,a=255:(x>>s)&a
G=lambda e:(e,)if e<P else(192|S(e,6),P|(e&R))if e<2048 else(224|S(e,12),P|S(e,6,R),P|(e&R))if e<O else(240|S(e,18),P|S(e,12,R),P|S(e,6,R),P|(e&R))
H=lambda e:(S(e,8),S(e))if e<O else(216|S(e-O,18),S(e-O,10),220+S((e-O)&1023,8),S(e-O))
I=lambda e:(S(e),S(e,8))if e<O else(S(e-O,10),216|S(e-O,18),S(e-O),220+S((e-O)&1023,8))
J=lambda e:(S(e,24),S(e,16),S(e,8),S(e))
K=lambda e:(S(e),S(e,8),S(e,16),S(e,24))
convert=lambda d,i,o:bytes(sum(map(L[o],N(list(M[i](d)))),()))if d else d
L,M=[G,H,H,I,J,J,K],[B,D,C(1),C(0),F,E(3,2,1,0),E(0,1,2,3)]
N=lambda d:[A(-1<x<1114112 and x&~2047!=55296,x)for x in d]

convertце функція, яка приймає об'єкти даних "байти", ідентифікатор вводу та вихідний ідентифікатор. Це, здається, працює - хоча, здається, що в пітоні незначно порушено використання BOM, коли не визначено кодування, тому використання вбудованого кодування python для тестових режимів 1 і 4 не працюватиме.

Факт забави: розмір також 555 ₁₆ або 10101010101 ₂ .

773 символів для декодування, 452 для кодування, 59 для перевірки та 83 для різних частин.

— Сел Скеггс
джерело

@TrangOul: Як правило, тривіальні зміни (як теги мови) нахмурені.

— Зак Гейтс

@ZachGates хтось повинен зробити так, щоб це було <1000 реп. Користувачів або> 1000 реп. Користувачів, і що хтось є спільнотою

— кішка

Це питання / відповідь не демонструє консенсусу громади. По всій мережі нахмурені такі тривіальні редагування. Ні <1000, ні> 1000 повторних користувачів не повинні змінювати ці зміни, якщо вони чітко не покращують вміст чи формат. Найкраще зупинитись на редагуванні таких речей, як мовні теги, виправлення / зміни в одному слові тощо. @Cat

— Zach Gates

Я думаю, що розмір вже не 0x555 :-(. Але ви можете наблизитись, використовуючи стандартний наконечник Python-гольфа, щоб використовувати один простір для відступів.

— Toby Speight

@TobySpeight зараз 0x557, ти маєш рацію. Насправді я використовував вкладки, які потрібно було перетворити на пробіли для публікації, але все ще вважати одним символом. Я піду подивитися, чи зможу я поголити пару персонажів іншим способом, коли отримаю можливість.

— Сел Скеггс

Python 3, 1138 байт (UTF-8)

Ось і виходить, що 14 годин міжнародних подорожей - це фантастична можливість закінчити завдання з гольфу ...

Функція перетворення є C(). Це дзвінки u(),v() і, і w()декодувати, і U(), V()і W()кодувати, UTF-8, -16 і -32 відповідно. Жоден з кодерів не видасть BOM, але всі декодери будуть правильно обробляти один. Умови помилки призводять до винятку (як правило ZeroDivisionError, люб’язність функції "несподівано" E()).

from struct import*
l=len
j=''.join
b=lambda c:[*bin(c)[2:]]
P,Q,i,o,z,Z='HI10><'
B=65279
O,F,H,L,X=1024,65536,55296,56320,57344
E=lambda:1/0
R=lambda y,e,c,n:unpack(([[z,Z][y[:n]==pack(Z+c,B)],e][l(e)])+c*(l(y)//n),y)
S=lambda d,e:B!=d[0]and d or e and E()or d[1:]
def u(y,d=(),p=0):
 while p<l(y):
  q=b(y[p])
  if l(q)>7:
   x=q.index(o);C=1<x<5and q[x+1:]or E();X=x+p;X>l(y)>E();p+=1
   while p<X:q=b(y[p]);C=l(q)>7and(i,o==q[:2])and(*C,*q[2:])or E();p+=1
   d=*d,int(j(C),2)
  else:d=*d,y[p];p+=1
 return S(d,0)
def T(p):
 q=b(p);C=()
 while l(q)not in(7,11,16,21):q=o,*q
 while l(q)>6:C=int(i+o+j(q[-6:]),2),*C;q=q[:-6]
 return bytes(p<128and[p]or[int(i*(7-l(q))+o+j(q),2),*C])
U=lambda c:b''.join(map(T,c))
def v(y,e=''):
 c=R(y,e,P,2);d=[];n=0
 while n<l(c)-1:h,a=c[n:n+2];D=[(h,a),(F+(h-H)*O+a-L,)][H<=h<L<=a<X];M=3-l(D);n+=M;d+=D[:M]
 if n<l(c):d=*d,c[n]
 return S(d,e)
V=lambda c,e=z:W(sum(map(lambda p:([H+(p-F)//O,L+(p-F)%O],[p])[p<F],c),[]),e,P)
w=lambda y,e='':S(R(y,e,Q,4),e)
W=lambda c,e=z,C=Q:pack(e+C*l(c),*c)
K=(u,U),(v,V),(v,V,z),(v,V,Z),(w,W),(w,W,z),(w,W,Z)
def C(y,f,t):f,_,*a=K[f];_,t,*b=K[t];return t(f(y,*a),*b)

— Тім Педерік
джерело