Використання atob Javascript для декодування base64 неправильно декодує рядки utf-8

106

Я використовую функцію Javascript, window.atob()щоб розшифрувати кодовану рядок base64 (зокрема базовий вміст, кодований base64 з API GitHub). Проблема в тому, що я повертаю кодовані ASCII символи назад (як â¢замість ™). Як я можу правильно обробляти вхідний потік, кодований base64, щоб він був розшифрований як utf-8?

javascript encoding utf-8

— фірмовий сценарій
джерело

3

На сторінці MDN, яку ви пов’язали, є абзац, що починається з фрази "Для використання з Unicode або UTF-8 рядками".

— Pointy

1

Ви на вузлі? Є кращі рішення, ніжatob

— Бергі

269

Є чудова стаття про документи MDN Mozilla, яка описує саме цю проблему:

"Проблема Unicode" Оскільки DOMStrings - це 16-бітові кодовані рядки, у більшості браузерів, що звертаються window.btoaдо рядка Unicode, буде викликати a, Character Out Of Range exceptionякщо символ перевищує діапазон 8-бітового байта (0x00 ~ 0xFF). Існує два можливі методи вирішення цієї проблеми:

Перший - це уникнути цілого рядка (з UTF-8, див. encodeURIComponent), а потім закодувати його;

другий - перетворити UTF-16 DOMStringв масив символів UTF-8 і потім закодувати його.

Примітка до попередніх рішень: стаття MDN спочатку пропонувала використовувати unescapeта escapeвирішити Character Out Of Rangeпроблему винятків, але вони з тих пір застаріли. Деякі інші відповіді тут запропонували працювати навколо цього з decodeURIComponentі encodeURIComponent, це виявилося ненадійним і непередбачуваним. Останнє оновлення цієї відповіді використовує сучасні функції JavaScript для підвищення швидкості та модернізації коду.

Якщо ви намагаєтесь заощадити деякий час, можете також розглянути можливість використання бібліотеки:

js-base64 (NPM, чудово підходить для Node.js)
base64-js

Кодування UTF8 ⇢ base64

function b64EncodeUnicode(str) {
    // first we use encodeURIComponent to get percent-encoded UTF-8,
    // then we convert the percent encodings into raw bytes which
    // can be fed into btoa.
    return btoa(encodeURIComponent(str).replace(/%([0-9A-F]{2})/g,
        function toSolidBytes(match, p1) {
            return String.fromCharCode('0x' + p1);
    }));
}

b64EncodeUnicode('✓ à la mode'); // "4pyTIMOgIGxhIG1vZGU="
b64EncodeUnicode('\n'); // "Cg=="

Розшифровка base64 ⇢ UTF8

function b64DecodeUnicode(str) {
    // Going backwards: from bytestream, to percent-encoding, to original string.
    return decodeURIComponent(atob(str).split('').map(function(c) {
        return '%' + ('00' + c.charCodeAt(0).toString(16)).slice(-2);
    }).join(''));
}

b64DecodeUnicode('4pyTIMOgIGxhIG1vZGU='); // "✓ à la mode"
b64DecodeUnicode('Cg=='); // "\n"

Рішення до 2018 року (функціональне, але, ймовірно, краща підтримка старих браузерів, не оновлена)

Ось поточна рекомендація, безпосередньо від MDN, з деякою додатковою сумісністю TypeScript через @ MA-Maddin:

// Encoding UTF8 ⇢ base64

function b64EncodeUnicode(str) {
    return btoa(encodeURIComponent(str).replace(/%([0-9A-F]{2})/g, function(match, p1) {
        return String.fromCharCode(parseInt(p1, 16))
    }))
}

b64EncodeUnicode('✓ à la mode') // "4pyTIMOgIGxhIG1vZGU="
b64EncodeUnicode('\n') // "Cg=="

// Decoding base64 ⇢ UTF8

function b64DecodeUnicode(str) {
    return decodeURIComponent(Array.prototype.map.call(atob(str), function(c) {
        return '%' + ('00' + c.charCodeAt(0).toString(16)).slice(-2)
    }).join(''))
}

b64DecodeUnicode('4pyTIMOgIGxhIG1vZGU=') // "✓ à la mode"
b64DecodeUnicode('Cg==') // "\n"

Початкове рішення (застаріле)

Це використано escapeта unescape(які тепер застаріли, хоча це все ще працює у всіх сучасних браузерах):

function utf8_to_b64( str ) {
    return window.btoa(unescape(encodeURIComponent( str )));
}

function b64_to_utf8( str ) {
    return decodeURIComponent(escape(window.atob( str )));
}

// Usage:
utf8_to_b64('✓ à la mode'); // "4pyTIMOgIGxhIG1vZGU="
b64_to_utf8('4pyTIMOgIGxhIG1vZGU='); // "✓ à la mode"

І останнє: я вперше зіткнувся з цією проблемою під час виклику API GitHub. Щоб правильно працювати на (мобільному) Safari, я фактично повинен був зняти весь простір від джерела base64, перш ніж я міг навіть розшифрувати джерело. Невже це все ще актуально у 2017 році, я не знаю:

function b64_to_utf8( str ) {
    str = str.replace(/\s/g, '');    
    return decodeURIComponent(escape(window.atob( str )));
}

— фірмовий сценарій
джерело

1

w3schools.com/jsref/jsref_unescape.asp "Функція unescape () застаріла в JavaScript версії 1.5. Замість цього використовуйте decodeURI () або decodeURIComponent ()."

— Тедд Хансен

1

Ви врятували мої дні, брате

— містер Нео

2

Оновлення: Рішення №1 у MDN в "Проблема Unicode" була виправлена, b64DecodeUnicode('4pyTIMOgIGxhIG1vZGU=');тепер правильно виведіть "✓ à la mode"

— weeix

2

Іншим способом розшифровки був би decodeURIComponent(atob('4pyTIMOgIGxhIG1vZGU=').split('').map(x => '%' + x.charCodeAt(0).toString(16)).join('')) не найефективніший код, але він є.

— daniel.gindi

2

return String.fromCharCode(parseInt(p1, 16));мати сумісність TypeScript.

— Мартін Шнайдер

20

Все змінюється. Методи втечі / пейзажу застаріли.

Ви можете URI кодувати рядок, перш ніж Base64-кодувати його. Зауважте, що це не створює UTF8, кодовані Base64, а скоріше дані, кодовані URL-адресами, кодовані Base64. Обидві сторони повинні домовитися про одне і те ж кодування.

Дивіться робочий приклад тут: http://codepen.io/anon/pen/PZgbPW

// encode string
var base64 = window.btoa(encodeURIComponent('€ 你好 æøåÆØÅ'));
// decode string
var str = decodeURIComponent(window.atob(tmp));
// str is now === '€ 你好 æøåÆØÅ'

Для проблеми ОП проблему має вирішити стороння бібліотека, така як js-base64 .

— Тедд Хансен
джерело

1

Я хотів би зазначити, що ви створюєте не base64 вхідного рядка, а його закодований компонент. Тож якщо ви відправте його, інша сторона не може розшифрувати її як "base64" та отримати оригінальну рядок

— Ріккардо Галлі

3

Ви маєте рацію, я оновив текст, щоб вказати на це. Дякую. Здається, альтернатива - реалізувати base64 самостійно, використовуючи сторонні бібліотеки (наприклад, js-base64) або отримуючи "Помилка: Не вдалося виконати" btoa "у" Вікні ": рядок, що кодується, містить символи, що не входять до діапазону Latin1. "

— Тедд Хансен

14

Якщо обробка рядків як байтів є вашою справою, ви можете використовувати наступні функції

function u_atob(ascii) {
    return Uint8Array.from(atob(ascii), c => c.charCodeAt(0));
}

function u_btoa(buffer) {
    var binary = [];
    var bytes = new Uint8Array(buffer);
    for (var i = 0, il = bytes.byteLength; i < il; i++) {
        binary.push(String.fromCharCode(bytes[i]));
    }
    return btoa(binary.join(''));
}


// example, it works also with astral plane characters such as '𝒞'
var encodedString = new TextEncoder().encode('✓');
var base64String = u_btoa(encodedString);
console.log('✓' === new TextDecoder().decode(u_atob(base64String)))

— Ріккардо Галлі
джерело

1

Дякую. Ваша відповідь мала вирішальне значення для того, щоб допомогти мені працювати в цьому, що зайняло мені багато годин протягом кількох днів. +1. stackoverflow.com/a/51814273/470749

— Райан

Для набагато швидше і крос-браузерні рішення (але по суті той же вихід), будь ласка , см stackoverflow.com/a/53433503/5601591

— Джек Гріффіна

u_atob та u_btoa використовують функції, доступні в кожному браузері з IE10 (2012), мені здається солідним (якщо ви посилаєтесь на TextEncoder, це лише приклад)

— Riccardo Galli

5

Ось оновлене рішення для 2018 року, як описано в ресурсах Mozilla Development

ВЗНАЧИТИ З УНІКОДУ НА В64

function b64EncodeUnicode(str) {
    // first we use encodeURIComponent to get percent-encoded UTF-8,
    // then we convert the percent encodings into raw bytes which
    // can be fed into btoa.
    return btoa(encodeURIComponent(str).replace(/%([0-9A-F]{2})/g,
        function toSolidBytes(match, p1) {
            return String.fromCharCode('0x' + p1);
    }));
}

b64EncodeUnicode('✓ à la mode'); // "4pyTIMOgIGxhIG1vZGU="
b64EncodeUnicode('\n'); // "Cg=="

ВІДКРИТИ ВІД В64

function b64DecodeUnicode(str) {
    // Going backwards: from bytestream, to percent-encoding, to original string.
    return decodeURIComponent(atob(str).split('').map(function(c) {
        return '%' + ('00' + c.charCodeAt(0).toString(16)).slice(-2);
    }).join(''));
}

b64DecodeUnicode('4pyTIMOgIGxhIG1vZGU='); // "✓ à la mode"
b64DecodeUnicode('Cg=='); // "\n"

— Мануель Г
джерело

4

Повна стаття, яка працює для мене: https://developer.mozilla.org/en-US/docs/Web/JavaScript/Base64_encoding_and_decoding

Частина, яку ми кодуємо з Unicode / UTF-8, є

function utf8_to_b64( str ) {
   return window.btoa(unescape(encodeURIComponent( str )));
}

function b64_to_utf8( str ) {
   return decodeURIComponent(escape(window.atob( str )));
}

// Usage:
utf8_to_b64('✓ à la mode'); // "4pyTIMOgIGxhIG1vZGU="
b64_to_utf8('4pyTIMOgIGxhIG1vZGU='); // "✓ à la mode"

Це один із найбільш використовуваних методів на сьогодні.

— Ріка
джерело

Це те саме посилання, що і прийнята відповідь.

— фірмовий сценарій

3

Я б припустив, що можна захотіти рішення, яке створює ширококористуваний URI з базовою базою64. Завітайте, data:text/plain;charset=utf-8;base64,4pi44pi54pi64pi74pi84pi+4pi/щоб переглянути демонстрацію (скопіюйте uri даних, відкрийте нову вкладку, вставте URI даних в адресний рядок, а потім натисніть клавішу Enter, щоб перейти на сторінку). Незважаючи на те, що цей URI кодований base64, браузер все ще здатний розпізнавати високі кодові точки та правильно їх декодувати. Мінімізований кодер + декодер становить 1058 байт (+ Gzip → 589 байт)

!function(e){"use strict";function h(b){var a=b.charCodeAt(0);if(55296<=a&&56319>=a)if(b=b.charCodeAt(1),b===b&&56320<=b&&57343>=b){if(a=1024*(a-55296)+b-56320+65536,65535<a)return d(240|a>>>18,128|a>>>12&63,128|a>>>6&63,128|a&63)}else return d(239,191,189);return 127>=a?inputString:2047>=a?d(192|a>>>6,128|a&63):d(224|a>>>12,128|a>>>6&63,128|a&63)}function k(b){var a=b.charCodeAt(0)<<24,f=l(~a),c=0,e=b.length,g="";if(5>f&&e>=f){a=a<<f>>>24+f;for(c=1;c<f;++c)a=a<<6|b.charCodeAt(c)&63;65535>=a?g+=d(a):1114111>=a?(a-=65536,g+=d((a>>10)+55296,(a&1023)+56320)):c=0}for(;c<e;++c)g+="\ufffd";return g}var m=Math.log,n=Math.LN2,l=Math.clz32||function(b){return 31-m(b>>>0)/n|0},d=String.fromCharCode,p=atob,q=btoa;e.btoaUTF8=function(b,a){return q((a?"\u00ef\u00bb\u00bf":"")+b.replace(/[\x80-\uD7ff\uDC00-\uFFFF]|[\uD800-\uDBFF][\uDC00-\uDFFF]?/g,h))};e.atobUTF8=function(b,a){a||"\u00ef\u00bb\u00bf"!==b.substring(0,3)||(b=b.substring(3));return p(b).replace(/[\xc0-\xff][\x80-\xbf]*/g,k)}}(""+void 0==typeof global?""+void 0==typeof self?this:self:global)

Нижче наведено вихідний код, який використовується для його створення.

var fromCharCode = String.fromCharCode;
var btoaUTF8 = (function(btoa, replacer){"use strict";
    return function(inputString, BOMit){
        return btoa((BOMit ? "\xEF\xBB\xBF" : "") + inputString.replace(
            /[\x80-\uD7ff\uDC00-\uFFFF]|[\uD800-\uDBFF][\uDC00-\uDFFF]?/g, replacer
        ));
    }
})(btoa, function(nonAsciiChars){"use strict";
    // make the UTF string into a binary UTF-8 encoded string
    var point = nonAsciiChars.charCodeAt(0);
    if (point >= 0xD800 && point <= 0xDBFF) {
        var nextcode = nonAsciiChars.charCodeAt(1);
        if (nextcode !== nextcode) // NaN because string is 1 code point long
            return fromCharCode(0xef/*11101111*/, 0xbf/*10111111*/, 0xbd/*10111101*/);
        // https://mathiasbynens.be/notes/javascript-encoding#surrogate-formulae
        if (nextcode >= 0xDC00 && nextcode <= 0xDFFF) {
            point = (point - 0xD800) * 0x400 + nextcode - 0xDC00 + 0x10000;
            if (point > 0xffff)
                return fromCharCode(
                    (0x1e/*0b11110*/<<3) | (point>>>18),
                    (0x2/*0b10*/<<6) | ((point>>>12)&0x3f/*0b00111111*/),
                    (0x2/*0b10*/<<6) | ((point>>>6)&0x3f/*0b00111111*/),
                    (0x2/*0b10*/<<6) | (point&0x3f/*0b00111111*/)
                );
        } else return fromCharCode(0xef, 0xbf, 0xbd);
    }
    if (point <= 0x007f) return nonAsciiChars;
    else if (point <= 0x07ff) {
        return fromCharCode((0x6<<5)|(point>>>6), (0x2<<6)|(point&0x3f));
    } else return fromCharCode(
        (0xe/*0b1110*/<<4) | (point>>>12),
        (0x2/*0b10*/<<6) | ((point>>>6)&0x3f/*0b00111111*/),
        (0x2/*0b10*/<<6) | (point&0x3f/*0b00111111*/)
    );
});

Потім для декодування даних base64 або HTTP отримує дані як URI даних, або використовує функцію нижче.

var clz32 = Math.clz32 || (function(log, LN2){"use strict";
    return function(x) {return 31 - log(x >>> 0) / LN2 | 0};
})(Math.log, Math.LN2);
var fromCharCode = String.fromCharCode;
var atobUTF8 = (function(atob, replacer){"use strict";
    return function(inputString, keepBOM){
        inputString = atob(inputString);
        if (!keepBOM && inputString.substring(0,3) === "\xEF\xBB\xBF")
            inputString = inputString.substring(3); // eradicate UTF-8 BOM
        // 0xc0 => 0b11000000; 0xff => 0b11111111; 0xc0-0xff => 0b11xxxxxx
        // 0x80 => 0b10000000; 0xbf => 0b10111111; 0x80-0xbf => 0b10xxxxxx
        return inputString.replace(/[\xc0-\xff][\x80-\xbf]*/g, replacer);
    }
})(atob, function(encoded){"use strict";
    var codePoint = encoded.charCodeAt(0) << 24;
    var leadingOnes = clz32(~codePoint);
    var endPos = 0, stringLen = encoded.length;
    var result = "";
    if (leadingOnes < 5 && stringLen >= leadingOnes) {
        codePoint = (codePoint<<leadingOnes)>>>(24+leadingOnes);
        for (endPos = 1; endPos < leadingOnes; ++endPos)
            codePoint = (codePoint<<6) | (encoded.charCodeAt(endPos)&0x3f/*0b00111111*/);
        if (codePoint <= 0xFFFF) { // BMP code point
          result += fromCharCode(codePoint);
        } else if (codePoint <= 0x10FFFF) {
          // https://mathiasbynens.be/notes/javascript-encoding#surrogate-formulae
          codePoint -= 0x10000;
          result += fromCharCode(
            (codePoint >> 10) + 0xD800,  // highSurrogate
            (codePoint & 0x3ff) + 0xDC00 // lowSurrogate
          );
        } else endPos = 0; // to fill it in with INVALIDs
    }
    for (; endPos < stringLen; ++endPos) result += "\ufffd"; // replacement character
    return result;
});

Перевага в тому, що вони є більш стандартними, полягає в тому, що цей кодер і цей декодер більш широко застосовуються, оскільки їх можна використовувати як дійсну URL-адресу, яка відображається правильно. Поспостерігайте.

(function(window){
    "use strict";
    var sourceEle = document.getElementById("source");
    var urlBarEle = document.getElementById("urlBar");
    var mainFrameEle = document.getElementById("mainframe");
    var gotoButton = document.getElementById("gotoButton");
    var parseInt = window.parseInt;
    var fromCodePoint = String.fromCodePoint;
    var parse = JSON.parse;
    
    function unescape(str){
        return str.replace(/\\u[\da-f]{0,4}|\\x[\da-f]{0,2}|\\u{[^}]*}|\\[bfnrtv"'\\]|\\0[0-7]{1,3}|\\\d{1,3}/g, function(match){
          try{
            if (match.startsWith("\\u{"))
              return fromCodePoint(parseInt(match.slice(2,-1),16));
            if (match.startsWith("\\u") || match.startsWith("\\x"))
              return fromCodePoint(parseInt(match.substring(2),16));
            if (match.startsWith("\\0") && match.length > 2)
              return fromCodePoint(parseInt(match.substring(2),8));
            if (/^\\\d/.test(match)) return fromCodePoint(+match.slice(1));
          }catch(e){return "\ufffd".repeat(match.length)}
          return parse('"' + match + '"');
        });
    }
    
    function whenChange(){
      try{ urlBarEle.value = "data:text/plain;charset=UTF-8;base64," + btoaUTF8(unescape(sourceEle.value), true);
      } finally{ gotoURL(); }
    }
    sourceEle.addEventListener("change",whenChange,{passive:1});
    sourceEle.addEventListener("input",whenChange,{passive:1});
    
    // IFrame Setup:
    function gotoURL(){mainFrameEle.src = urlBarEle.value}
    gotoButton.addEventListener("click", gotoURL, {passive: 1});
    function urlChanged(){urlBarEle.value = mainFrameEle.src}
    mainFrameEle.addEventListener("load", urlChanged, {passive: 1});
    urlBarEle.addEventListener("keypress", function(evt){
      if (evt.key === "enter") evt.preventDefault(), urlChanged();
    }, {passive: 1});
    
        
    var fromCharCode = String.fromCharCode;
    var btoaUTF8 = (function(btoa, replacer){
		    "use strict";
        return function(inputString, BOMit){
        	return btoa((BOMit?"\xEF\xBB\xBF":"") + inputString.replace(
        		/[\x80-\uD7ff\uDC00-\uFFFF]|[\uD800-\uDBFF][\uDC00-\uDFFF]?/g, replacer
    		));
    	}
    })(btoa, function(nonAsciiChars){
		"use strict";
    	// make the UTF string into a binary UTF-8 encoded string
    	var point = nonAsciiChars.charCodeAt(0);
    	if (point >= 0xD800 && point <= 0xDBFF) {
    		var nextcode = nonAsciiChars.charCodeAt(1);
    		if (nextcode !== nextcode) { // NaN because string is 1code point long
    			return fromCharCode(0xef/*11101111*/, 0xbf/*10111111*/, 0xbd/*10111101*/);
    		}
    		// https://mathiasbynens.be/notes/javascript-encoding#surrogate-formulae
    		if (nextcode >= 0xDC00 && nextcode <= 0xDFFF) {
    			point = (point - 0xD800) * 0x400 + nextcode - 0xDC00 + 0x10000;
    			if (point > 0xffff) {
    				return fromCharCode(
    					(0x1e/*0b11110*/<<3) | (point>>>18),
    					(0x2/*0b10*/<<6) | ((point>>>12)&0x3f/*0b00111111*/),
    					(0x2/*0b10*/<<6) | ((point>>>6)&0x3f/*0b00111111*/),
    					(0x2/*0b10*/<<6) | (point&0x3f/*0b00111111*/)
    				);
    			}
    		} else {
    			return fromCharCode(0xef, 0xbf, 0xbd);
    		}
    	}
    	if (point <= 0x007f) { return inputString; }
    	else if (point <= 0x07ff) {
    		return fromCharCode((0x6<<5)|(point>>>6), (0x2<<6)|(point&0x3f/*00111111*/));
    	} else {
    		return fromCharCode(
    			(0xe/*0b1110*/<<4) | (point>>>12),
    			(0x2/*0b10*/<<6) | ((point>>>6)&0x3f/*0b00111111*/),
    			(0x2/*0b10*/<<6) | (point&0x3f/*0b00111111*/)
    		);
    	}
    });
    setTimeout(whenChange, 0);
})(window);

img:active{opacity:0.8}

<center>
<textarea id="source" style="width:66.7vw">Hello \u1234 W\186\0256ld!
Enter text into the top box. Then the URL will update automatically.
</textarea><br />
<div style="width:66.7vw;display:inline-block;height:calc(25vw + 1em + 6px);border:2px solid;text-align:left;line-height:1em">
<input id="urlBar" style="width:calc(100% - 1em - 13px)" /><img id="gotoButton" src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAABsAAAAeCAMAAADqx5XUAAAAclBMVEX///9NczZ8e32ko6fDxsU/fBoSQgdFtwA5pAHVxt+7vLzq5ex23y4SXABLiiTm0+/c2N6DhoQ6WSxSyweVlZVvdG/Uz9aF5kYlbwElkwAggACxs7Jl3hX07/cQbQCar5SU9lRntEWGum+C9zIDHwCGnH5IvZAOAAABmUlEQVQoz7WS25acIBBFkRLkIgKKtOCttbv//xdDmTGZzHv2S63ltuBQQP4rdRiRUP8UK4wh6nVddQwj/NtDQTvac8577zTQb72zj65/876qqt7wykU6/1U6vFEgjE1mt/5LRqrpu7oVsn0sjZejMfxR3W/yLikqAFcUx93YxLmZGOtElmEu6Ufd9xV3ZDTGcEvGLbMk0mHHlUSvS5svCwS+hVL8loQQyfpI1Ay8RF/xlNxcsTchGjGDIuBG3Ik7TMyNxn8m0TSnBAK6Z8UZfp3IbAonmJvmsEACum6aNv7B0CnvpezDcNhw9XWsuAr7qnRg6dABmeM4dTgn/DZdXWs3LMspZ1KDMt1kcPJ6S1icWNp2qaEmjq6myx7jbQK3VKItLJaW5FR+cuYlRhYNKzGa9vF4vM5roLW3OSVjkmiGJrPhUq301/16pVKZRGFYWjTP50spTxBN5Z4EKnSonruk+n4tUokv1aJSEl/MLZU90S3L6/U6o0J142iQVp3HcZxKSo8LfkNRCtJaKYFSRX7iaoAAUDty8wvWYR6HJEepdwAAAABJRU5ErkJggg==" style="width:calc(1em + 4px);line-height:1em;vertical-align:-40%;cursor:pointer" />
<iframe id="mainframe" style="width:66.7vw;height:25vw" frameBorder="0"></iframe>
</div>
</center>

Розгорніть фрагмент

Окрім того, що вони є дуже стандартизованими, наведені вище фрагменти коду також дуже швидкі. Замість непрямої послідовності послідовності, де дані повинні бути перетворені кілька разів між різними формами (наприклад, у відповіді Ріккардо Галлі), наведений вище фрагмент коду є максимально прямим. Він використовує лише один простий швидкий String.prototype.replaceвиклик для обробки даних при кодуванні і лише один для декодування даних при декодуванні. Ще один плюс полягає в тому, що (особливо для великих рядків), String.prototype.replaceбраузер дозволяє автоматично керувати базовим управлінням пам’яттю щодо зміни розміру рядка, що веде до значного підвищення продуктивності, особливо у вічнозелених браузерах, таких як Chrome та Firefox, які сильно оптимізують.String.prototype.replace. Нарешті, обмерзання на торті полягає в тому, що для вас користувачі латинського сценарію exclūsīvō, рядки, які не містять жодних кодових точок вище 0x7f, надзвичайно швидко обробляються, оскільки рядок залишається незмінним алгоритмом заміни.

Я створив сховище github для цього рішення за адресою https://github.com/anonyco/BestBase64EncoderDecoder/

— Джек Гіффін
джерело

Чи можете ви детальніше пояснити, що ви маєте на увазі під "створеним користувачем способом" проти "інтерпретаційним браузером"? Яка додаткова вартість використання цього рішення, скажімо, над тим, що рекомендує Mozilla?

— фірмовий сценарій

@brandonscript Mozilla відрізняється від MDN. MDN - це створений користувачем контент. Сторінка на MDN, яка рекомендує ваше рішення, - це створений користувачем контент, а не вміст, створений продавцем-браузером.

— Джек Гіффін

Чи створено ваш постачальник рішень? Я б так, пропоную дати кредит походження. Якщо ні, то це також створено користувачем і не відрізняється від відповіді MDN?

— фірмовий сценарій

@brandonscript Добре. Ви праві. Я вилучив цей фрагмент тексту. Також ознайомтеся з доданою мною демонстрацією.

— Джек Гіффін

0

Невелика корекція, невидимість та втеча застаріли, тому:

function utf8_to_b64( str ) {
    return window.btoa(decodeURIComponent(encodeURIComponent(str)));
}

function b64_to_utf8( str ) {
     return decodeURIComponent(encodeURIComponent(window.atob(str)));
}


function b64_to_utf8( str ) {
    str = str.replace(/\s/g, '');    
    return decodeURIComponent(encodeURIComponent(window.atob(str)));
}

— Darkves
джерело

2

Схоже, посилання на документ навіть відрізняється від цього зараз, пропонуючи рішення для регулярного виведення.

— фірмовий сценарій

2

Це не вийде, тому що encodeURIComponentце зворотне decodeURIComponent, тобто просто скасує перетворення. Дивіться stackoverflow.com/a/31412163/1534459, щоб дізнатися більше про те, що відбувається з escapeі unescape.

— BODO

1

@canaaerus Я не розумію ваш коментар? escape і unescape застаріли, я просто поміняю їх на [декодування | кодування] функцією URIComponent :-) Все працює добре. Спочатку прочитайте питання

— Darkves

1

@Darkves: Причина, по якій encodeURIComponentвикористовується, полягає в тому, щоб правильно обробити (весь спектр) рядків Unicode. Так, наприклад, window.btoa(decodeURIComponent(encodeURIComponent('€')))дає, Error: String contains an invalid characterтому що це те саме, що window.btoa('€')і btoaне може кодувати €.

— BODO

2

@Darkves: Так, це правильно. Але ви не можете поміняти місця втечі на EncodeURIComponent і не скасувати з DecodeURIComponent, тому що Encode і методи escape не роблять одне і те ж. Те ж саме з декодуванням та unescape. Я спочатку зробив ту саму помилку, btw. Ви повинні помітити, що якщо ви берете рядок, UriEncode, а потім UriDecode, ви отримаєте ту саму рядок, яку ви ввели. Тому робити це було б нісенітницею. Коли ви не скасовуєте рядок, кодований encodeURIComponent, ви не отримаєте ту саму рядок, яку ви ввели, тож тому при escape / unescape це працює, але не з вашим.

— Стефан Штайгер

0

Ось який-небудь захищений майбутнім код для браузерів, яких може не вистачати escape/unescape(). Зауважте, що IE 9 і пізніші версії не підтримують atob/btoa(), тому вам знадобиться використовувати спеціальні функції base64 для них.

// Polyfill for escape/unescape
if( !window.unescape ){
    window.unescape = function( s ){
        return s.replace( /%([0-9A-F]{2})/g, function( m, p ) {
            return String.fromCharCode( '0x' + p );
        } );
    };
}
if( !window.escape ){
    window.escape = function( s ){
        var chr, hex, i = 0, l = s.length, out = '';
        for( ; i < l; i ++ ){
            chr = s.charAt( i );
            if( chr.search( /[A-Za-z0-9\@\*\_\+\-\.\/]/ ) > -1 ){
                out += chr; continue; }
            hex = s.charCodeAt( i ).toString( 16 );
            out += '%' + ( hex.length % 2 != 0 ? '0' : '' ) + hex;
        }
        return out;
    };
}

// Base64 encoding of UTF-8 strings
var utf8ToB64 = function( s ){
    return btoa( unescape( encodeURIComponent( s ) ) );
};
var b64ToUtf8 = function( s ){
    return decodeURIComponent( escape( atob( s ) ) );
};

Більш вичерпний приклад кодування та декодування UTF-8 можна знайти тут: http://jsfiddle.net/47zwb41o/

— Beejor
джерело

-1

включаючи вищевикладене рішення, якщо все ще виникає проблема, спробуйте, як показано нижче.

blob = new Blob(["\ufeff", csv_content]); // this will make symbols to appears in excel

для csv_content ви можете спробувати, як нижче.

function b64DecodeUnicode(str: any) {        
        return decodeURIComponent(atob(str).split('').map((c: any) => {
            return '%' + ('00' + c.charCodeAt(0).toString(16)).slice(-2);
        }).join(''));
    }

— Дівакар
джерело