Javascript та regex: розділіть рядок і збережіть роздільник


131

У мене є рядок:

var string = "aaaaaa<br />&dagger; bbbb<br />&Dagger; cccc"

І я хотів би розділити цю рядок з роздільником, <br />за яким слід спеціальний символ.

Для цього я використовую це:

string.split(/<br \/>&#?[a-zA-Z0-9]+;/g);

Я отримую те, що мені потрібно, крім того, що втрачаю роздільник. Ось приклад: http://jsfiddle.net/JwrZ6/1/

Як я можу тримати роздільник?


якщо ви заздалегідь знаєте роздільник, чому б просто не зробити ... var delim = "<br/>";?
Андреас Вонг

Дякую @SiGanteng, я заздалегідь знаю роздільник, але не можу змусити його працювати на своєму прикладі. Мені потрібно тримати роздільник, щоб він був <br /> супроводжувався спеціальним символом, тому що іноді я можу мати <br /> не слідуючи за спеціальним знаком, і цього не потрібно розділяти.
Мілош

2
Добре запитання, у мене є подібний випадок, коли знання роздільника не допомагає. Я розбиваюсь на "] & [". Тож справді мій роздільник є "&", але розщеплення на ньому недостатньо точне, мені потрібно отримати дужки будь-якої сторони, щоб визначити правильний розкол. Однак мені потрібні ці дужки назад у моїх розділених рядках. По 1 в кожній, будь-якій стороні.
PandaWood

Відповіді:


104

Використовуйте (позитивний) lookahead, щоб регулярний вираз стверджував, що спеціальний символ існує, але насправді не відповідає йому:

string.split(/<br \/>(?=&#?[a-zA-Z0-9]+;)/g);

Дивіться це в дії:

var string = "aaaaaa<br />&dagger; bbbb<br />&Dagger; cccc";
console.log(string.split(/<br \/>(?=&#?[a-zA-Z0-9]+;)/g));


Коли я використовую цей код, він додає в 0кінці кожного рядка
клавіатуру-воїна

2
Я не можу знайти нічого про позитивний пошук у посиланні, яке ви надали.
Пол Кріс Джонс

@PaulJones вміст було переміщено в проміжок часу. Дякую, що повідомили мені, що я поправив посилання.
Джон

179

У мене були подібні, але незначні різні проблеми. У будь-якому випадку, ось приклади трьох різних сценаріїв, де тримати роздільник.

"1、2、3".split("、") == ["1", "2", "3"]
"1、2、3".split(/(、)/g) == ["1", "、", "2", "、", "3"]
"1、2、3".split(/(?=、)/g) == ["1", "、2", "、3"]
"1、2、3".split(/(?!、)/g) == ["1、", "2、", "3"]
"1、2、3".split(/(.*?、)/g) == ["", "1、", "", "2、", "3"]

Попередження: Четвертий працюватиме лише для розділення окремих символів. ConnorsFan представляє альтернативу :

// Split a path, but keep the slashes that follow directories
var str = 'Animation/rawr/javascript.js';
var tokens = str.match(/[^\/]+\/?|\//g);

3
Я шукав щось на зразок третього прикладу, але це працює лише в тому випадку, якщо елементи лише одного символу - інакше воно розділиться на окремі символи. Зрештою, мені довелося пройти нудний маршрут RegExp.exec .
Гордон

2
Я не розумію, чому всі користуються / г
Sarsaparilla

1
Як би використати цей регулярний вираз "1、2、3" .split (/ (?! 、) / G) == ["1 、", "2 、", "3"] для повних слів? Наприклад, "foo1, foo2, foo3",
Waltari

Ти геній !. де ви знайдете документацію, яка пояснює спосіб її роботи? тобі не потрібен gкінець
pery mimon

1
Переклад .matchнегативного рішення для цих прикладів: "11、22、33".match(/.*?、|.+$/g)-> ["11、", "22、", "33"]. /gМодифікатор примітки має вирішальне значення для відповідності.
Бені Чернявський-Паскін

57

Якщо ви загорнуте роздільник в пантези, він буде частиною повернутого масиву.

string.split(/(<br \/>&#?[a-zA-Z0-9]+);/g);
// returns ["aaaaaa", "<br />&dagger;", "bbbb", "<br />&Dagger;", "cccc"]

Залежно від того, яку частину ви хочете зберегти, змінити підгрупу, яка відповідає вам

string.split(/(<br \/>)&#?[a-zA-Z0-9]+;/g);
// returns ["aaaaaa", "<br />", "bbbb", "<br />", "cccc"]

Ви можете покращити вираз, ігноруючи регістр букв string.split (/ () & #? [A-z0-9] +; / gi);

І ви можете порівнюватись із попередньо визначеними групами на зразок цієї: \dдорівнює [0-9]та \wдорівнює [a-zA-Z0-9_]. Це означає, що ваш вираз може виглядати приблизно так.

string.split(/<br \/>(&#?[a-z\d]+;)/gi);

На JavaScriptKit є хороша довідка про регулярні вирази .


4
Ще краще, я не знаю, що ми можемо зберегти лише частину роздільника. Насправді мені потрібно зберегти лише спеціальну таблицю, я можу це зробити за допомогою цього: string.split (/ <br \/> (& #? [A-zA-Z0-9] +;) / g);
Мілош

1
Ви можете оптимізувати своє вираження, ігноруючи регістр слів. Або відповідати за попередньо визначений клас персонажів. Я оновлю свою відповідь.
Торстен Вальтер

2
Чому це так низько? Його ідеальний і такий гнучкий
Тофандель

2
Це, звичайно, найпростіший спосіб і найчитабельніший синтаксис.
Тимар Іво Батіс

4

відповів на це тут також JavaScript Split Regular Expression зберігає роздільник

у прикладі регулярного виразів використовуйте шаблон (? = візерунок)

var string = '500x500-11*90~1+1';
string = string.replace(/(?=[$-/:-?{-~!"^_`\[\]])/gi, ",");
string = string.split(",");

це дасть вам наступний результат.

[ '500x500', '-11', '*90', '~1', '+1' ]

Також можна безпосередньо розділити

string = string.split(/(?=[$-/:-?{-~!"^_`\[\]])/gi);

даючи той же результат

[ '500x500', '-11', '*90', '~1', '+1' ]

Чому б не відразу розколотись, як у прийнятій відповіді Йона?
Гордон

@Gordon ... :) Я міг би просто так ... оновив код ... Ура
Фрай

2

Я зробив модифікацію відповіді jichi і ввів її у функцію, яка також підтримує кілька літер.

String.prototype.splitAndKeep = function(separator, method='seperate'){
    var str = this;
    if(method == 'seperate'){
        str = str.split(new RegExp(`(${separator})`, 'g'));
    }else if(method == 'infront'){
        str = str.split(new RegExp(`(?=${separator})`, 'g'));
    }else if(method == 'behind'){
        str = str.split(new RegExp(`(.*?${separator})`, 'g'));
        str = str.filter(function(el){return el !== "";});
    }
    return str;
};

Відповіді jichi 3-й метод не працював у цій функції, тому я взяв 4-й метод і видалив порожні пробіли, щоб отримати той самий результат.

edit: другий метод, який виключає масив для розділення char1 або char2

String.prototype.splitAndKeep = function(separator, method='seperate'){
    var str = this;
    function splitAndKeep(str, separator, method='seperate'){
        if(method == 'seperate'){
            str = str.split(new RegExp(`(${separator})`, 'g'));
        }else if(method == 'infront'){
            str = str.split(new RegExp(`(?=${separator})`, 'g'));
        }else if(method == 'behind'){
            str = str.split(new RegExp(`(.*?${separator})`, 'g'));
            str = str.filter(function(el){return el !== "";});
        }
        return str;
    }
    if(Array.isArray(separator)){
        var parts = splitAndKeep(str, separator[0], method);
        for(var i = 1; i < separator.length; i++){
            var partsTemp = parts;
            parts = [];
            for(var p = 0; p < partsTemp.length; p++){
                parts = parts.concat(splitAndKeep(partsTemp[p], separator[i], method));
            }
        }
        return parts;
    }else{
        return splitAndKeep(str, separator, method);
    }
};

використання:

str = "first1-second2-third3-last";

str.splitAndKeep(["1", "2", "3"]) == ["first", "1", "-second", "2", "-third", "3", "-last"];

str.splitAndKeep("-") == ["first1", "-", "second2", "-", "third3", "-", "last"];

1

Функція розширення розбиває рядок на підрядку або RegEx, а роздільник розміщується відповідно до другого параметра вперед або ззаду.

    String.prototype.splitKeep = function (splitter, ahead) {
        var self = this;
        var result = [];
        if (splitter != '') {
            var matches = [];
            // Getting mached value and its index
            var replaceName = splitter instanceof RegExp ? "replace" : "replaceAll";
            var r = self[replaceName](splitter, function (m, i, e) {
                matches.push({ value: m, index: i });
                return getSubst(m);
            });
            // Finds split substrings
            var lastIndex = 0;
            for (var i = 0; i < matches.length; i++) {
                var m = matches[i];
                var nextIndex = ahead == true ? m.index : m.index + m.value.length;
                if (nextIndex != lastIndex) {
                    var part = self.substring(lastIndex, nextIndex);
                    result.push(part);
                    lastIndex = nextIndex;
                }
            };
            if (lastIndex < self.length) {
                var part = self.substring(lastIndex, self.length);
                result.push(part);
            };
            // Substitution of matched string
            function getSubst(value) {
                var substChar = value[0] == '0' ? '1' : '0';
                var subst = '';
                for (var i = 0; i < value.length; i++) {
                    subst += substChar;
                }
                return subst;
            };
        }
        else {
            result.add(self);
        };
        return result;
    };

Тест:

    test('splitKeep', function () {
        // String
        deepEqual("1231451".splitKeep('1'), ["1", "231", "451"]);
        deepEqual("123145".splitKeep('1', true), ["123", "145"]);
        deepEqual("1231451".splitKeep('1', true), ["123", "145", "1"]);
        deepEqual("hello man how are you!".splitKeep(' '), ["hello ", "man ", "how ", "are ", "you!"]);
        deepEqual("hello man how are you!".splitKeep(' ', true), ["hello", " man", " how", " are", " you!"]);
        // Regex
        deepEqual("mhellommhellommmhello".splitKeep(/m+/g), ["m", "hellomm", "hellommm", "hello"]);
        deepEqual("mhellommhellommmhello".splitKeep(/m+/g, true), ["mhello", "mmhello", "mmmhello"]);
    });

0

Я використовую це:

String.prototype.splitBy = function (delimiter) {
  var 
    delimiterPATTERN = '(' + delimiter + ')', 
    delimiterRE = new RegExp(delimiterPATTERN, 'g');

  return this.split(delimiterRE).reduce((chunks, item) => {
    if (item.match(delimiterRE)){
      chunks.push(item)
    } else {
      chunks[chunks.length - 1] += item
    };
    return chunks
  }, [])
}

Окрім того, що з вами не варто возитися String.prototype, ось ось версія функції:

var splitBy = function (text, delimiter) {
  var 
    delimiterPATTERN = '(' + delimiter + ')', 
    delimiterRE = new RegExp(delimiterPATTERN, 'g');

  return text.split(delimiterRE).reduce(function(chunks, item){
    if (item.match(delimiterRE)){
      chunks.push(item)
    } else {
      chunks[chunks.length - 1] += item
    };
    return chunks
  }, [])
}

Так ви могли зробити:

var haystack = "aaaaaa<br />&dagger; bbbb<br />&Dagger; cccc"
var needle =  '<br \/>&#?[a-zA-Z0-9]+;';
var result = splitBy(haystack , needle)
console.log( JSON.stringify( result, null, 2) )

І ви закінчите:

[
  "<br />&dagger; bbbb",
  "<br />&Dagger; cccc"
]
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.