Виявити URL-адреси в тексті за допомогою JavaScript

151

Хтось має пропозиції щодо виявлення URL-адрес у наборі рядків?

arrayOfStrings.forEach(function(string){
  // detect URLs in strings and do something swell,
  // like creating elements with links.
});

Оновлення: я зафіксував цей регекс для виявлення посилань ... Мабуть, через кілька років.

kLINK_DETECTION_REGEX = /(([a-z]+:\/\/)?(([a-z0-9\-]+\.)+([a-z]{2}|aero|arpa|biz|com|coop|edu|gov|info|int|jobs|mil|museum|name|nato|net|org|pro|travel|local|internal))(:[0-9]{1,5})?(\/[a-z0-9_\-\.~]+)*(\/([a-z0-9_\-\.]*)(\?[a-z0-9+_\-\.%=&amp;]*)?)?(#[a-zA-Z0-9!$&'()*+.=-_~:@/?]*)?)(\s+|$)/gi

Повний помічник (з додатковою підтримкою рулів ) знаходиться в суті # 1654670 .

javascript regex url

— арбали
джерело

11

Напевно, не дуже гарна ідея намагатися перелічити обмежений набір TLD, оскільки вони продовжують створювати нові.

— Maxy-B

Погодьтеся. Іноді нам потрібен оновлений код з TLD. Насправді може бути побудований скрипт для додавання TLD у регулярний вираз або динамічне оновлення коду TLD у коді. Є речі в житті - це означає, що вони мають бути стандартизовані, як TLD та Timezone. Кінцевий контроль може бути корисним для перевірки наявної URL-адреси "TLDs", яку можна перевірити для випадку використання адреси реального світу.

— Edward Chan JW

217

Спочатку вам потрібен хороший регулярний вираз, який відповідає URL-адресам. Це важко зробити. Дивіться тут , тут і тут :

... майже все є дійсною URL-адресою. Існують деякі правила пунктуації для їх поділу. Якщо немає розділових знаків, у вас є дійсна URL-адреса.

Уважно перевірте RFC і перевірте, чи можна створити "недійсну" URL-адресу. Правила дуже гнучкі.

Наприклад :::::, допустима URL-адреса. Шлях є ":::::". Досить дурне ім’я файлу, але дійсне ім'я файлу.

Також /////є дійсною URL-адресою. Netloc ("ім'я хоста") є "". Шлях є "///". Знову ж, дурний. Також діє. Ця URL-адреса нормалізується до "///" еквівалента.

Щось подібне "bad://///worse/////" цілком справедливо. Тупий, але дійсний.

У будь-якому випадку ця відповідь не призначена для того, щоб дати вам кращий регулярний вираз, а скоріше доказ того, як робити обертання рядка всередині тексту за допомогою JavaScript.

Гаразд, давайте просто використовувати цей: /(https?:\/\/[^\s]+)/g

Знову ж таки, це поганий вираз . У ньому буде багато помилкових позитивних результатів. Однак для цього прикладу досить добре.

function urlify(text) {
  var urlRegex = /(https?:\/\/[^\s]+)/g;
  return text.replace(urlRegex, function(url) {
    return '<a href="' + url + '">' + url + '</a>';
  })
  // or alternatively
  // return text.replace(urlRegex, '<a href="$1">$1</a>')
}

var text = 'Find me at http://www.example.com and also at http://stackoverflow.com';
var html = urlify(text);

console.log(html)

Розгорніть фрагмент

// html now looks like:
// "Find me at <a href="http://www.example.com">http://www.example.com</a> and also at <a href="http://stackoverflow.com">http://stackoverflow.com</a>"

Отже, підсумовуємо:

$$('#pad dl dd').each(function(element) {
    element.innerHTML = urlify(element.innerHTML);
});

— Півмісяць свіжий
джерело

4

Деякі приклади "багатьох помилкових позитивних результатів" значно покращили б цю відповідь. Інакше майбутнім Googlers залишається лише деякий (можливо, дійсний?) FUD.

— cmcculloh

Я ніколи не знав, що ти можеш передати функцію як другу парам для .replace: |

— Аамір Африді

4

Це добре, але це робить "неправильну" річ, коли в text="Find me at http://www.example.com, and also at http://stackoverflow.com."результаті двох пунктуацій знаходяться два знаки 404. Деякі користувачі знають про це і додадуть пробіл після URL-адрес перед пунктуацією, щоб уникнути поломки, але більшість посилань, які я використовую (Gmail, ефірна панель, фабрикатор), відокремлюють знаки пунктуації від URL-адреси.

— лижник

Якщо текст уже містить прив’язаний URL-адрес, ви можете скористатися функцією RemoveAnchors (текст) {var div = $ ('<div> </div>') .html (текст); div.find ('a'). content (). unrap (); повернути div.text (); } спочатку видалити якір перед поверненням text.replace

— Muneeb Mirza

Якщо текст уже містить прив’язаний URL, ви використовуєте jquery для видалення якоря, але я використовую Angular. Як я можу зняти якір в кутовому?

— Сахін Ягтап

132

Ось що я в кінцевому підсумку використовував як свій регулярний вираз:

var urlRegex =/(\b(https?|ftp|file):\/\/[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])/ig;

Це не включає знаки пунктуації в URL-адресі. Функція Півмісяця працює як шарм :) так:

function linkify(text) {
    var urlRegex =/(\b(https?|ftp|file):\/\/[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])/ig;
    return text.replace(urlRegex, function(url) {
        return '<a href="' + url + '">' + url + '</a>';
    });
}

— Ніаз Мухаммед
джерело

4

Нарешті, регулярний вираз, який справді працює в найбільш очевидному випадку! Цей заслуговує на закладку. Я перевірив тисячі прикладів пошуку Google, поки не знайду цього.

— Ісмаїл

6

Просто і приємно! Але це urlRegexслід визначати зовні, linkify оскільки його складання дорого.

— БМ

1

Це не вдається виявити повну URL-адресу: disney.wikia.com/wiki/Pua_(Moana)

— Jry9972

1

Я додав ()у кожен список символів, і він працює зараз.

— Гійом Ф.

3

не вдається виявити URL, що починається з www. наприклад: www.facebook.com

— CraZyDroiD

51

Я досить довго розглядав цю проблему, тоді мені спало на думку, що існує метод Android, android.text.util.Linkify, який використовує для цього досить сильні реджекси. На щастя, Android є відкритим кодом.

Вони використовують кілька різних шаблонів для відповідності різних типів URL-адрес. Ви можете їх знайти тут: http://grepcode.com/file/repository.grepcode.com/java/ext/com.google.android/android/2.0_r1/android/text/util/Regex.java#Regex. 0WEB_URL_PATTERN

Якщо ви просто стурбовані URL-адресами, які відповідають WEB_URL_PATTERN, тобто URL-адресам, які відповідають специфікації RFC 1738, ви можете скористатися цим:

/((?:(http|https|Http|Https|rtsp|Rtsp):\/\/(?:(?:[a-zA-Z0-9\$\-\_\.\+\!\*\'\(\)\,\;\?\&\=]|(?:\%[a-fA-F0-9]{2})){1,64}(?:\:(?:[a-zA-Z0-9\$\-\_\.\+\!\*\'\(\)\,\;\?\&\=]|(?:\%[a-fA-F0-9]{2})){1,25})?\@)?)?((?:(?:[a-zA-Z0-9][a-zA-Z0-9\-]{0,64}\.)+(?:(?:aero|arpa|asia|a[cdefgilmnoqrstuwxz])|(?:biz|b[abdefghijmnorstvwyz])|(?:cat|com|coop|c[acdfghiklmnoruvxyz])|d[ejkmoz]|(?:edu|e[cegrstu])|f[ijkmor]|(?:gov|g[abdefghilmnpqrstuwy])|h[kmnrtu]|(?:info|int|i[delmnoqrst])|(?:jobs|j[emop])|k[eghimnrwyz]|l[abcikrstuvy]|(?:mil|mobi|museum|m[acdghklmnopqrstuvwxyz])|(?:name|net|n[acefgilopruz])|(?:org|om)|(?:pro|p[aefghklmnrstwy])|qa|r[eouw]|s[abcdeghijklmnortuvyz]|(?:tel|travel|t[cdfghjklmnoprtvwz])|u[agkmsyz]|v[aceginu]|w[fs]|y[etu]|z[amw]))|(?:(?:25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}|[1-9][0-9]|[1-9])\.(?:25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}|[1-9][0-9]|[1-9]|0)\.(?:25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}|[1-9][0-9]|[1-9]|0)\.(?:25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}|[1-9][0-9]|[0-9])))(?:\:\d{1,5})?)(\/(?:(?:[a-zA-Z0-9\;\/\?\:\@\&\=\#\~\-\.\+\!\*\'\(\)\,\_])|(?:\%[a-fA-F0-9]{2}))*)?(?:\b|$)/gi;

Ось повний текст джерела:

"((?:(http|https|Http|Https|rtsp|Rtsp):\\/\\/(?:(?:[a-zA-Z0-9\\$\\-\\_\\.\\+\\!\\*\\'\\(\\)"
+ "\\,\\;\\?\\&\\=]|(?:\\%[a-fA-F0-9]{2})){1,64}(?:\\:(?:[a-zA-Z0-9\\$\\-\\_"
+ "\\.\\+\\!\\*\\'\\(\\)\\,\\;\\?\\&\\=]|(?:\\%[a-fA-F0-9]{2})){1,25})?\\@)?)?"
+ "((?:(?:[a-zA-Z0-9][a-zA-Z0-9\\-]{0,64}\\.)+"   // named host
+ "(?:"   // plus top level domain
+ "(?:aero|arpa|asia|a[cdefgilmnoqrstuwxz])"
+ "|(?:biz|b[abdefghijmnorstvwyz])"
+ "|(?:cat|com|coop|c[acdfghiklmnoruvxyz])"
+ "|d[ejkmoz]"
+ "|(?:edu|e[cegrstu])"
+ "|f[ijkmor]"
+ "|(?:gov|g[abdefghilmnpqrstuwy])"
+ "|h[kmnrtu]"
+ "|(?:info|int|i[delmnoqrst])"
+ "|(?:jobs|j[emop])"
+ "|k[eghimnrwyz]"
+ "|l[abcikrstuvy]"
+ "|(?:mil|mobi|museum|m[acdghklmnopqrstuvwxyz])"
+ "|(?:name|net|n[acefgilopruz])"
+ "|(?:org|om)"
+ "|(?:pro|p[aefghklmnrstwy])"
+ "|qa"
+ "|r[eouw]"
+ "|s[abcdeghijklmnortuvyz]"
+ "|(?:tel|travel|t[cdfghjklmnoprtvwz])"
+ "|u[agkmsyz]"
+ "|v[aceginu]"
+ "|w[fs]"
+ "|y[etu]"
+ "|z[amw]))"
+ "|(?:(?:25[0-5]|2[0-4]" // or ip address
+ "[0-9]|[0-1][0-9]{2}|[1-9][0-9]|[1-9])\\.(?:25[0-5]|2[0-4][0-9]"
+ "|[0-1][0-9]{2}|[1-9][0-9]|[1-9]|0)\\.(?:25[0-5]|2[0-4][0-9]|[0-1]"
+ "[0-9]{2}|[1-9][0-9]|[1-9]|0)\\.(?:25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}"
+ "|[1-9][0-9]|[0-9])))"
+ "(?:\\:\\d{1,5})?)" // plus option port number
+ "(\\/(?:(?:[a-zA-Z0-9\\;\\/\\?\\:\\@\\&\\=\\#\\~"  // plus option query params
+ "\\-\\.\\+\\!\\*\\'\\(\\)\\,\\_])|(?:\\%[a-fA-F0-9]{2}))*)?"
+ "(?:\\b|$)";

Якщо ви хочете бути по-справжньому вигадливим, ви можете також протестувати адреси електронної пошти. Регекс для адрес електронної пошти:

/[a-zA-Z0-9\\+\\.\\_\\%\\-]{1,256}\\@[a-zA-Z0-9][a-zA-Z0-9\\-]{0,64}(\\.[a-zA-Z0-9][a-zA-Z0-9\\-]{0,25})+/gi

PS: Домени вищого рівня, підтримувані вищевказаним регексом, діють станом на червень 2007 року. Для актуального списку вам потрібно перевірити https://data.iana.org/TLD/tlds-alpha-by-domain.txt .

— Адам
джерело

3

— Ри-

4

Це приємно, але я не впевнений, що коли-небудь би ним користувався. У більшості випадків використання я вважаю за краще приймати помилкові позитиви, ніж використовувати підхід, що спирається на жорстко кодований список TLD. Якщо ви перерахуєте TLD у своєму коді, ви гарантуєте, що він буде застарілим одного дня, і я краще не буду будувати обов'язкове технічне обслуговування у своєму коді, якщо я можу його уникнути.

— Марк Амері

3

Це працює 101% часу, на жаль, він також знаходить URL-адреси, яким не передує пробіл. Якщо я веду матч на hello@mydomain.com, він ловить "mydomain.com". Чи є спосіб вдосконалити це, щоб його зловити, лише якщо у нього є пробіл?

— Deminetix

Також зауважимо, що це ідеально підходить для лову URL-адрес користувача

— Deminetix

Зауважте, що grepcode.com більше не працює, ось , на мою думку , це посилання на потрібне місце у вихідному коді Android. Я думаю, що регекс для Android використовується, можливо, оновлюється з 2013 року (оригінальна публікація), але, здається, не оновлювався з 2015 року, і, отже, можуть бути відсутні нові новіші TLD.

— Джеймс

19

На основі відповіді Crescent Fresh

якщо ви хочете виявити посилання з http: // АБО без http: // та www. ви можете використовувати наступне

function urlify(text) {
    var urlRegex = /(((https?:\/\/)|(www\.))[^\s]+)/g;
    //var urlRegex = /(https?:\/\/[^\s]+)/g;
    return text.replace(urlRegex, function(url,b,c) {
        var url2 = (c == 'www.') ?  'http://' +url : url;
        return '<a href="' +url2+ '" target="_blank">' + url + '</a>';
    }) 
}

— h0mayun
джерело

Це хороше рішення, але я також хочу перевірити, що в тексті не повинно бути в ньому href. Я спробував це regex = /((?!href)((https?:\/\/)|(www\.)|(mailto:))........ Чи можете ви мені в цьому допомогти або чому вищевказаний регекс не працює.

— Сахін Ягтап

Мені подобається, що ви також додали target = "_ blank" до поверненого результату. Ця версія - те, чого я хотів. Нічого надто верхнього (інакше я використовую Linkifyjs) достатньо, щоб отримати більшість посилань.

— Майкл

18

Ця бібліотека в NPM виглядає як досить вичерпна https://www.npmjs.com/package/linkifyjs

Linkify - це невеликий, але всеосяжний плагін JavaScript для пошуку URL-адрес у простому тексті та перетворення їх у HTML-посилання. Він працює з усіма дійсними URL-адресами та адресами електронної пошти.

— Ден Кантор
джерело

4

Я щойно завершив реалізацію linkifyjs у своєму проекті, і це фантастично. Linkifyjs має бути відповіддю на це питання. Інший, на який слід звернути увагу,

— Uber Schnoz

6

Функцію можна вдосконалити і для візуалізації зображень:

function renderHTML(text) { 
    var rawText = strip(text)
    var urlRegex =/(\b(https?|ftp|file):\/\/[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])/ig;   

    return rawText.replace(urlRegex, function(url) {   

    if ( ( url.indexOf(".jpg") > 0 ) || ( url.indexOf(".png") > 0 ) || ( url.indexOf(".gif") > 0 ) ) {
            return '<img src="' + url + '">' + '<br/>'
        } else {
            return '<a href="' + url + '">' + url + '</a>' + '<br/>'
        }
    }) 
}

або для мініатюрного зображення, яке посилається на зображення розміру у повному обсязі:

return '<a href="' + url + '"><img style="width: 100px; border: 0px; -moz-border-radius: 5px; border-radius: 5px;" src="' + url + '">' + '</a>' + '<br/>'

А ось функція strip (), яка попередньо обробляє текстовий рядок для рівномірності, видаляючи будь-який існуючий html.

function strip(html) 
    {  
        var tmp = document.createElement("DIV"); 
        tmp.innerHTML = html; 
        var urlRegex =/(\b(https?|ftp|file):\/\/[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])/ig;   
        return tmp.innerText.replace(urlRegex, function(url) {     
        return '\n' + url 
    })
}

— Гаутам Шарма
джерело

2

let str = 'https://example.com is a great site'
str.replace(/(https?:\/\/[^\s]+)/g,"<a href='$1' target='_blank' >$1</a>")

Короткий код Велика робота! ...

Результат: -

 <a href="https://example.com" target="_blank" > https://example.com </a>

— Кашан Хайдер
джерело

1

Існує існуючий пакет npm: url-regex , просто встановіть його yarn add url-regexабо npm install url-regexвикористовуйте наступним чином:

const urlRegex = require('url-regex');

const replaced = 'Find me at http://www.example.com and also at http://stackoverflow.com or at google.com'
  .replace(urlRegex({strict: false}), function(url) {
     return '<a href="' + url + '">' + url + '</a>';
  });

— Ведманта
джерело

0

tmp.innerText не визначено. Слід використовувати tmp.innerHTML

function strip(html) 
    {  
        var tmp = document.createElement("DIV"); 
        tmp.innerHTML = html; 
        var urlRegex =/(\b(https?|ftp|file):\/\/[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])/ig;   
        return tmp.innerHTML .replace(urlRegex, function(url) {     
        return '\n' + url 
    })

— Án Bình Trọng
джерело

0

спробуйте це:

function isUrl(s) {
    if (!isUrl.rx_url) {
        // taken from https://gist.github.com/dperini/729294
        isUrl.rx_url=/^(?:(?:https?|ftp):\/\/)?(?:\S+(?::\S*)?@)?(?:(?!(?:10|127)(?:\.\d{1,3}){3})(?!(?:169\.254|192\.168)(?:\.\d{1,3}){2})(?!172\.(?:1[6-9]|2\d|3[0-1])(?:\.\d{1,3}){2})(?:[1-9]\d?|1\d\d|2[01]\d|22[0-3])(?:\.(?:1?\d{1,2}|2[0-4]\d|25[0-5])){2}(?:\.(?:[1-9]\d?|1\d\d|2[0-4]\d|25[0-4]))|(?:(?:[a-z\u00a1-\uffff0-9]-*)*[a-z\u00a1-\uffff0-9]+)(?:\.(?:[a-z\u00a1-\uffff0-9]-*)*[a-z\u00a1-\uffff0-9]+)*(?:\.(?:[a-z\u00a1-\uffff]{2,}))\.?)(?::\d{2,5})?(?:[/?#]\S*)?$/i;
        // valid prefixes
        isUrl.prefixes=['http:\/\/', 'https:\/\/', 'ftp:\/\/', 'www.'];
        // taken from https://w3techs.com/technologies/overview/top_level_domain/all
        isUrl.domains=['com','ru','net','org','de','jp','uk','br','pl','in','it','fr','au','info','nl','ir','cn','es','cz','kr','ua','ca','eu','biz','za','gr','co','ro','se','tw','mx','vn','tr','ch','hu','at','be','dk','tv','me','ar','no','us','sk','xyz','fi','id','cl','by','nz','il','ie','pt','kz','io','my','lt','hk','cc','sg','edu','pk','su','bg','th','top','lv','hr','pe','club','rs','ae','az','si','ph','pro','ng','tk','ee','asia','mobi'];
    }

    if (!isUrl.rx_url.test(s)) return false;
    for (let i=0; i<isUrl.prefixes.length; i++) if (s.startsWith(isUrl.prefixes[i])) return true;
    for (let i=0; i<isUrl.domains.length; i++) if (s.endsWith('.'+isUrl.domains[i]) || s.includes('.'+isUrl.domains[i]+'\/') ||s.includes('.'+isUrl.domains[i]+'?')) return true;
    return false;
}

function isEmail(s) {
    if (!isEmail.rx_email) {
        // taken from http://stackoverflow.com/a/16016476/460084
        var sQtext = '[^\\x0d\\x22\\x5c\\x80-\\xff]';
        var sDtext = '[^\\x0d\\x5b-\\x5d\\x80-\\xff]';
        var sAtom = '[^\\x00-\\x20\\x22\\x28\\x29\\x2c\\x2e\\x3a-\\x3c\\x3e\\x40\\x5b-\\x5d\\x7f-\\xff]+';
        var sQuotedPair = '\\x5c[\\x00-\\x7f]';
        var sDomainLiteral = '\\x5b(' + sDtext + '|' + sQuotedPair + ')*\\x5d';
        var sQuotedString = '\\x22(' + sQtext + '|' + sQuotedPair + ')*\\x22';
        var sDomain_ref = sAtom;
        var sSubDomain = '(' + sDomain_ref + '|' + sDomainLiteral + ')';
        var sWord = '(' + sAtom + '|' + sQuotedString + ')';
        var sDomain = sSubDomain + '(\\x2e' + sSubDomain + ')*';
        var sLocalPart = sWord + '(\\x2e' + sWord + ')*';
        var sAddrSpec = sLocalPart + '\\x40' + sDomain; // complete RFC822 email address spec
        var sValidEmail = '^' + sAddrSpec + '$'; // as whole string

        isEmail.rx_email = new RegExp(sValidEmail);
    }

    return isEmail.rx_email.test(s);
}

також визнають URLs , такі як google.com, http://www.google.bla, http://google.bla, www.google.blaале неgoogle.bla

— кофіфус
джерело

0

Ви можете використовувати такий регулярний вираз для вилучення нормальних шаблонів URL-адрес.

(https?:\/\/(?:www\.|(?!www))[a-zA-Z0-9][a-zA-Z0-9-]+[a-zA-Z0-9]\.[^\s]{2,}|www\.[a-zA-Z0-9][a-zA-Z0-9-]+[a-zA-Z0-9]\.[^\s]{2,}|https?:\/\/(?:www\.|(?!www))[a-zA-Z0-9]+\.[^\s]{2,}|www\.[a-zA-Z0-9]+\.[^\s]{2,})

Якщо вам потрібні більш складні візерунки, використовуйте подібну бібліотеку.

https://www.npmjs.com/package/pattern-dreamer

— Кан Ендрю
джерело

Яка мета (?:www\.|(?!www))? Чому має wwwww.comбути недійсним?

— Тото

Ти правий. Насправді я просто взяв це за те, що багато хто використовує регулярний вираз. Я рекомендую використовувати зв'язану бібліотеку вище. Ми повинні розглянути багато випадків при виявленні URL-адреси, тому регулярний вираз повинен бути складнішим.

— Кан Ендрю

0

Загальне об'єктно-орієнтоване рішення

Для таких людей, як я, що використовують рамки, такі як кутові, які не дозволяють безпосередньо керувати DOM, я створив функцію, яка займає рядок і повертає масив url/ plainTextоб'єкти, які можна використовувати для створення будь-якого представлення інтерфейсу, який ви хочете.

URL-регекс

Для відповідності URL-адрес я використав (злегка адаптований) h0mayunрегулярний вираз:/(?:(?:https?:\/\/)|(?:www\.))[^\s]+/g

Моя функція також викидає знаки пунктуації з кінця URL-адреси, як, .і ,я вважаю, що частіше це буде фактичний розділовий знак, ніж законний URL, який закінчується (але це може бути! Це не сувора наука, як добре пояснюють інші відповіді). Для цього я застосовую слідуючи регулярним вираженням на відповідні URL-адреси /^(.+?)([.,?!'"]*)$/.

Код машинопису

    export function urlMatcherInText(inputString: string): UrlMatcherResult[] {
        if (! inputString) return [];

        const results: UrlMatcherResult[] = [];

        function addText(text: string) {
            if (! text) return;

            const result = new UrlMatcherResult();
            result.type = 'text';
            result.value = text;
            results.push(result);
        }

        function addUrl(url: string) {
            if (! url) return;

            const result = new UrlMatcherResult();
            result.type = 'url';
            result.value = url;
            results.push(result);
        }

        const findUrlRegex = /(?:(?:https?:\/\/)|(?:www\.))[^\s]+/g;
        const cleanUrlRegex = /^(.+?)([.,?!'"]*)$/;

        let match: RegExpExecArray;
        let indexOfStartOfString = 0;

        do {
            match = findUrlRegex.exec(inputString);

            if (match) {
                const text = inputString.substr(indexOfStartOfString, match.index - indexOfStartOfString);
                addText(text);

                var dirtyUrl = match[0];
                var urlDirtyMatch = cleanUrlRegex.exec(dirtyUrl);
                addUrl(urlDirtyMatch[1]);
                addText(urlDirtyMatch[2]);

                indexOfStartOfString = match.index + dirtyUrl.length;
            }
        }
        while (match);

        const remainingText = inputString.substr(indexOfStartOfString, inputString.length - indexOfStartOfString);
        addText(remainingText);

        return results;
    }

    export class UrlMatcherResult {
        public type: 'url' | 'text'
        public value: string
    }

— eddyP23
джерело

0

Якщо ви хочете виявити посилання з http: // АБО без http: // АБО ftp АБО інші можливі випадки, такі як видалення кінцевих пунктуацій наприкінці, подивіться на цей код.

https://jsfiddle.net/AndrewKang/xtfjn8g3/

Простий спосіб використання - використання NPM

npm install --save url-knife

— Кан Ендрю
джерело