Регулярне вираження, яке відповідає імені хоста DNS або IP-адреси?


369

Чи є у когось підручний регулярний вираз, який буде відповідати будь-якому юридичному DNS-хосту або IP-адресу?

Неважко написати таке, яке працює 95% часу, але я сподіваюся отримати те, що добре перевірено, щоб точно відповідати останнім специфікаціям RFC для імен DNS-хостів.

Відповіді:


535

Ви можете використовувати наступні регулярні вирази окремо або поєднуючи їх у спільному виразі АБО.

ValidIpAddressRegex = "^(([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$";

ValidHostnameRegex = "^(([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z0-9]|[A-Za-z0-9][A-Za-z0-9\-]*[A-Za-z0-9])$";

ValidIpAddressRegex відповідає дійсним IP-адресам та правильним іменам хоста ValidHostnameRegex . Залежно від мови, якою ви користуєтесь \, можливо, вам слід уникнути \.


ValidHostnameRegex дійсний відповідно до RFC 1123 . Спочатку RFC 952 вказав, що сегменти імен хостів не можуть починатися з цифри.

http://en.wikipedia.org/wiki/Hostname

Оригінальна специфікація імен хостів у RFC 952 передбачає, що мітки не можуть починатися цифрою або дефісом і не повинні закінчуватися дефісом. Однак наступна специфікація ( RFC 1123 ) дозволила міткам імен хостів починати з цифр.

Valid952HostnameRegex = "^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$";

3
Тут: stackoverflow.com/questions/4645126/… - Я пояснюю, що імена, що починаються з цифри, також вважаються дійсними. Крім того, лише одна крапка - це сумнівне питання. Було б здорово мати більше відгуків про це.
BreakPhreak

16
Ви можете додати IPv6. ОП не вказав тип адреси. (До речі, його можна знайти тут )
new123456

32
Перш ніж люди сліпо використовувати це у своєму коді, зауважте, що це не зовсім точно. Він ігнорує RFC2181: "Сам DNS розміщує лише одне обмеження на конкретні мітки, які можна використовувати для ідентифікації записів ресурсів. Це одне обмеження стосується довжини мітки та повного імені. Довжина будь-якої однієї мітки обмежена між 1 і 63 октети. Повне доменне ім’я обмежено 255 октетами (включаючи роздільники). "
рубль

7
@UserControl: Не латинські (Punycoded) імена хостів потрібно спершу перетворити у форму ASCII ( éxämplè.com= xn--xmpl-loa1ab.com), а потім перевірити.
Алікс Аксель

6
Вираз імені хоста відповідає деяким недійсним значенням: я спробував, 123.456.789.0і він говорить, що це дійсне ім'я хоста.
lbarreira

62

Ім'я хоста регулярний вираз з smink не дотримується обмеження на довжину окремих міток в імені хоста.Кожна мітка в межах дійсного імені хоста може бути не більше 63 октетів.

ValidHostnameRegex = "^ ([a-zA-Z0-9] | [a-zA-Z0-9] [a-zA-Z0-9 \ -] {0,61} [a-zA-Z0-9]) \
(\. ([a-zA-Z0-9] | [a-zA-Z0-9] [a-zA-Z0-9 \ -] {0,61} [a-zA-Z0-9])) * $ "

Зауважте, що зворотний проріз в кінці першого рядка (вище) є синтаксисом оболонки Unix для розбиття довгого рядка. Це не є частиною самого регулярного виразу.

Ось лише регулярний вираз у одному рядку:

^ ([a-zA-Z0-9] | [a-zA-Z0-9] [a-zA-Z0-9 \ -] {0,61} [a-zA-Z0-9]) (\. ([a-zA-Z0-9] | [a-zA-Z0-9] [a-zA-Z0-9 \ -] {0,61} [a-zA-Z0-9])) * $

Також слід окремо перевірити, чи загальна довжина імені хоста не повинна перевищувати 255 символів . Для отримання додаткової інформації зверніться до RFC-952 та RFC-1123.


6
Відмінний шаблон господаря. Це, мабуть, залежить від мовної реалізації регулярних виразів, але для JS це може бути трохи відрегульовано, щоб бути більш коротким, не втрачаючи нічого:/^[a-z\d]([a-z\d\-]{0,61}[a-z\d])?(\.[a-z\d]([a-z\d\-]{0,61}[a-z\d])?)*$/i
Точка з комою

31

Щоб відповідати дійсній IP-адресі, використовуйте такий регекс

(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)(\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)){3}

замість:

([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])(\.([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])){3}

Пояснення

Багато механізмів регулярного вирівнювання відповідають першій можливості в ORпослідовності. Наприклад, спробуйте наступний регулярний вираз:

10.48.0.200

Тест

Перевірте різницю між хорошим та поганим


5
Не забудьте start ^ і end $ або щось на зразок 0.0.0.999 або 999.0.0.0 також будуть відповідати. ;)
andreas

1
так, для дійсного початку рядка ^ і кінця $ потрібні, але якщо ви шукаєте IP-адресу в тексті, не використовуйте його.
Альбан

Навмисна «не жадібність», яку ви ідентифікуєте, стосується і інших рішень імен хостів. Варто додати це до своєї відповіді, оскільки інші не будуть відповідати повному імені хоста. наприклад ([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*проти([a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]|[a-zA-Z0-9])(\.([a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])|[a-zA-Z0-9]))*
ergohack

РЕДАКТУВАННЯ: У вищесказаному використовуйте +в кінці замість того, *щоб побачити помилку.
ergohack

5

Я не можу редагувати верхню публікацію, тому додам свою відповідь тут.

Для імені хоста - проста відповідь, на прикладі egrep тут - http: //www.linuxinsight.com/how_to_grep_for_ip_addresses_using_the_gnu_egrep_utility.html

egrep '([[:digit:]]{1,3}\.){3}[[:digit:]]{1,3}'

Хоча випадок не враховує значення, як 0 у кулаковому октеті, і значення, що перевищують 254 (ip адреси) або 255 (маска мережі). Можливо, додатково, якщо заява допоможе.

Що стосується легального імені хоста dns, за умови, що ви перевіряєте лише імена хостів в Інтернеті (а не внутрішню мережу), я написав наступний фрагмент, суміш оболонки / php, але він повинен застосовуватися як будь-який регулярний вираз.

спочатку перейдіть на веб-сайт ietf, завантажте та проаналізуйте перелік легальних доменних імен рівня 1:

tld=$(curl -s http://data.iana.org/TLD/tlds-alpha-by-domain.txt |  sed 1d  | cut -f1 -d'-' | tr '\n' '|' | sed 's/\(.*\)./\1/')
echo "($tld)"

Це повинно дати вам гарний фрагмент коду, який перевіряє законність верхнього доменного імені, наприклад .com .org або .ca

Потім додайте першу частину виразу відповідно до наведених тут вказівок - http: //www.domainit.com/support/faq.mhtml?category=Domain_FAQ&question=9 (будь-яке буквено-цифрове поєднання та символ "-", тире не повинно бути в початок або кінець октету.

(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+

Потім зберіть все це (приклад PHP preg_match):

$pattern = '/^(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+(AC|AD|AE|AERO|AF|AG|AI|AL|AM|AN|AO|AQ|AR|ARPA|AS|ASIA|AT|AU|AW|AX|AZ|BA|BB|BD|BE|BF|BG|BH|BI|BIZ|BJ|BM|BN|BO|BR|BS|BT|BV|BW|BY|BZ|CA|CAT|CC|CD|CF|CG|CH|CI|CK|CL|CM|CN|CO|COM|COOP|CR|CU|CV|CX|CY|CZ|DE|DJ|DK|DM|DO|DZ|EC|EDU|EE|EG|ER|ES|ET|EU|FI|FJ|FK|FM|FO|FR|GA|GB|GD|GE|GF|GG|GH|GI|GL|GM|GN|GOV|GP|GQ|GR|GS|GT|GU|GW|GY|HK|HM|HN|HR|HT|HU|ID|IE|IL|IM|IN|INFO|INT|IO|IQ|IR|IS|IT|JE|JM|JO|JOBS|JP|KE|KG|KH|KI|KM|KN|KP|KR|KW|KY|KZ|LA|LB|LC|LI|LK|LR|LS|LT|LU|LV|LY|MA|MC|MD|ME|MG|MH|MIL|MK|ML|MM|MN|MO|MOBI|MP|MQ|MR|MS|MT|MU|MUSEUM|MV|MW|MX|MY|MZ|NA|NAME|NC|NE|NET|NF|NG|NI|NL|NO|NP|NR|NU|NZ|OM|ORG|PA|PE|PF|PG|PH|PK|PL|PM|PN|PR|PRO|PS|PT|PW|PY|QA|RE|RO|RS|RU|RW|SA|SB|SC|SD|SE|SG|SH|SI|SJ|SK|SL|SM|SN|SO|SR|ST|SU|SV|SY|SZ|TC|TD|TEL|TF|TG|TH|TJ|TK|TL|TM|TN|TO|TP|TR|TRAVEL|TT|TV|TW|TZ|UA|UG|UK|US|UY|UZ|VA|VC|VE|VG|VI|VN|VU|WF|WS|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|YE|YT|YU|ZA|ZM|ZW)[.]?$/i';

    if (preg_match, $pattern, $matching_string){
    ... do stuff
    }

Ви також можете додати оператор if, щоб перевірити, що той рядок, який ви перевіряєте, коротший за 256 символів - http://www.ops.ietf.org/lists/namedroppers/namedroppers.2003/msg00964.html


1
-1 тому, що це відповідає фіктивним IP-адресам на кшталт "999.999.999.999".
бдешам

1
"Хоча випадок не враховує значення, як 0 у кулаковому октеті, і значення, що перевищують 254 (ip адреса) або 255 (маска мережі)."
Олексій Волков

Я бачив, що ви кваліфікували свою відповідь, так. Я підтримав те, що ця частина вашої відповіді все ще не корисна.
бдешам

3

Варто зазначити, що є бібліотеки для більшості мов, які роблять це для вас, часто вбудовані в стандартну бібліотеку. І ці бібліотеки, ймовірно, оновлюються набагато частіше, ніж код, який ви скопіювали з відповіді на переповнення стека чотири роки тому і забули про неї. І звичайно, вони також, як правило, розберуть адресу в якійсь корисній формі, а не просто дадуть вам збіг з групою груп.

Наприклад, виявлення та аналіз IPv4 в (POSIX) C:

#include <arpa/inet.h>
#include <stdio.h>

int main(int argc, char *argv[]) {
  for (int i=1; i!=argc; ++i) {
    struct in_addr addr = {0};
    printf("%s: ", argv[i]);
    if (inet_pton(AF_INET, argv[i], &addr) != 1)
      printf("invalid\n");
    else
      printf("%u\n", addr.s_addr);
  }
  return 0;
}

Очевидно, що такі функції не працюватимуть, якщо ви намагаєтесь, наприклад, знайти всі дійсні адреси у чаті - але навіть там може бути простіше використовувати простий, але надмірно виражений регулярний вираз, щоб знайти потенційні збіги, а потім скористатися бібліотека для їх розбору.

Наприклад, у Python:

>>> import ipaddress
>>> import re
>>> msg = "My address is 192.168.0.42; 192.168.0.420 is not an address"
>>> for maybeip in re.findall(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}', msg):
...     try:
...         print(ipaddress.ip_address(maybeip))
...     except ValueError:
...         pass

2
def isValidHostname(hostname):

    if len(hostname) > 255:
        return False
    if hostname[-1:] == ".":
        hostname = hostname[:-1]   # strip exactly one dot from the right,
                                   #  if present
    allowed = re.compile("(?!-)[A-Z\d-]{1,63}(?<!-)$", re.IGNORECASE)
    return all(allowed.match(x) for x in hostname.split("."))

Чи можете ви пояснити цей регулярний вираз? Точно, що означають (?! -), (? <! -)?
Scit

1
@Scit, вони переконайтеся, що він не починається або не закінчується символом "-", якщо ваш движок-генеролог дозволяє їх використання. Наприклад, від Python або від Perl .
YLearn

1

Я думаю, що це найкращий регекс для перевірки Ip. будь ласка, перевірте це один раз !!!

^(([01]?[0-9]?[0-9]|2([0-4][0-9]|5[0-5]))\.){3}([01]?[0-9]?[0-9]|2([0-4][0-9]|5[0-5]))$

1
"^((\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])\.){3}(\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])$"

1

Це працює для дійсних IP-адрес:

regex = '^([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])$'


0

Ось регулярний вираз, який я використовував у Ant для отримання IP-адреса хоста-проксі або імені хоста з ANT_OPTS. Це було використано для отримання IP-адреси проксі-сервера, щоб я міг запустити Ant "доступний" тест, перш ніж налаштувати проксі для роздвоєного JVM.

^.*-Dhttp\.proxyHost=(\w{1,}\.\w{1,}\.\w{1,}\.*\w{0,})\s.*$

Це \wправильно, він не буде захоплювати IP, лише ім'я хоста в певних ситуаціях.
Ярон

0

Я виявив, що це працює досить добре для IP-адрес. Він підтверджує, як головна відповідь, але він також гарантує, що ip ізольований, тому жодного тексту чи більше цифр / десяткових знаків не буде після або до ip.

(? <! \ S) (?: (?: \ D | [1-9] \ d | 1 \ d \ d | 2 [0-4] \ d | 25 [0-5]) \ b |. \ b) {7} (?! \ S)


Я багато пробував, але не зміг зрозуміти тут 2 речі. 1. \ b визначає межу слова Чому ми використовуємо \ b? яка межа? і 2. Чому це працює лише для {7} З того, що я зрозумів, я думаю, що це має бути {4}, але це не працює. За бажанням, ви могли б розповісти про те, чому ви використовуєте блоки, які не захоплюють.
Срічакрадхар

0
AddressRegex = "^(ftp|http|https):\/\/([0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}:[0-9]{1,5})$";

HostnameRegex =  /^(ftp|http|https):\/\/([a-z0-9]+\.)?[a-z0-9][a-z0-9-]*((\.[a-z]{2,6})|(\.[a-z]{2,6})(\.[a-z]{2,6}))$/i

це повторне використання використовується лише для перевірки цього типу

працювати лише за умови http://www.kk.com http://www.kk.co.in

не працює для

http://www.kk.com/ http: //www.kk.co.in.kk

http://www.kk.com/dfas http://www.kk.co.in/


0

спробуйте це:

((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)

це працює в моєму випадку.


0

Щодо IP-адрес, виявляється, що існує певна дискусія щодо того, чи слід включати провідні нулі. Колись це була звичайна практика і загальновизнана, тому я заперечую, що їх слід позначати як дійсні незалежно від поточних переваг. Існує також деяка неоднозначність щодо того, чи слід перевіряти текст перед рядком і після нього, і, знову ж таки, я думаю, що він повинен. 1.2.3.4 є дійсним IP, але 1.2.3.4.5 це не так, і ні частина 1.2.3.4, ні частина 2.3.4.5 не повинні призводити до відповідності. Деякі проблеми можуть бути вирішені цим виразом:

grep -E '(^|[^[:alnum:]+)(([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5])\.){3}([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5])([^[:alnum:]]|$)' 

Прикрою частиною тут є той факт, що частина регулярних виразів, що підтверджує октет, повторюється, як це справедливо у багатьох пропонованих рішеннях. Хоча це краще, ніж для екземплярів шаблону, повторення можна повністю виключити, якщо підпрограми підтримуються в регулярному вираженні, що використовується. Наступний приклад дає змогу виконувати ці функції з -Pкомутатором, grepа також користується функцією пошуку та огляду. (Ім'я функції, яку я вибрав, є "o" для октету. Я міг би використовувати "oktet" як ім'я, але хотів бути стислим.)

grep -P '(?<![\d\w\.])(?<o>([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5]))(\.\g<o>){3}(?![\d\w\.])'

Поводження з крапкою може насправді створювати помилкові негативи, якщо IP-адреси знаходяться у файлі з текстом у вигляді речень, оскільки період може слідувати, не будучи частиною пунктирної нотації. Варіант вищезазначеного міг би виправити таке:

grep -P '(?<![\d\w\.])(?<x>([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5]))(\.\g<x>){3}(?!([\d\w]|\.\d))'

0
>>> my_hostname = "testhostn.ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
True
>>> my_hostname = "testhostn....ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
False
>>> my_hostname = "testhostn.A.ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
True

0

У новій мережевій основі є доступні ініціалізатори для struct IPv4Address та struct IPv6Address, які дуже легко обробляють частину IP-адреси. Робити це в IPv6 за допомогою регулярного вираження важко з усіма правилами скорочення.

На жаль, у мене немає елегантної відповіді на ім’я хоста.

Зауважте, що мережа Framework останнім часом, тому може змусити вас компілювати для останніх версій ОС.

import Network
let tests = ["192.168.4.4","fkjhwojfw","192.168.4.4.4","2620:3","2620::33"]

for test in tests {
    if let _ = IPv4Address(test) {
        debugPrint("\(test) is valid ipv4 address")
    } else if let _ = IPv6Address(test) {
        debugPrint("\(test) is valid ipv6 address")
    } else {
        debugPrint("\(test) is not a valid IP address")
    }
}

output:
"192.168.4.4 is valid ipv4 address"
"fkjhwojfw is not a valid IP address"
"192.168.4.4.4 is not a valid IP address"
"2620:3 is not a valid IP address"
"2620::33 is valid ipv6 address"

-1

як щодо цього?

([0-9]{1,3}\.){3}[0-9]{1,3}

І так це 9999999999.0.0.9999999999 :) Але для більшості програмістів цього короткого підходу буде достатньо.
andreas

3
-1 тому, що це відповідає дурницьким IP-адресам (як зазначає @Shebuka).
бдешам

-1

на php: filter_var(gethostbyname($dns), FILTER_VALIDATE_IP) == true ? 'ip' : 'not ip'


2
Хоча цей код може відповісти на питання, загалом пояснення поряд із кодом робить відповідь набагато кориснішою. Будь ласка, відредагуйте свою відповідь та надайте контекст та пояснення.
user4642212

І якщо я не помиляюся, FILTER_VALIDATE_IP - це значення лише для PHP.
DonGar

-2

Перевірка імен хостів, таких як ... mywebsite.co.in, thangaraj.name, 18thangaraj.in, thangaraj106.in тощо,

[a-z\d+].*?\\.\w{2,4}$

3
-1. ОП попросила щось «добре перевірене, щоб воно точно відповідало останнім специфікаціям RFC», але це не відповідає, наприклад, * .museum, хоча воно буде відповідати * .foo. Ось список дійсних TLD.
бдешам

Я не впевнений, що це гарна ідея поставити плюс усередині класу символів (квадратні дужки), крім того, є TLD з 5 літерами (наприклад, експерт ).
Ярон

Найкращий спосіб досягнення RFC - це використання системних / мовних функцій. inet_atonдосить хороший.
м3нда

-2

Я подумав про цю просту схему відповідності регулярних виразів для відповідності IP-адреси \ d + [.] \ D + [.] \ D + [.] \ D +


1111.1.1.1 не є дійсним ip. Немає можливості реально перевірити формат ip, якщо ви не подбаєте про підмережі. Вам слід хоча б подбати про кількість виступів з чимось подібним ^\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}і, звичайно, це не буде правильним шляхом. Якщо у вас є мовний текст для написання сценарію, ви впевнено матимете доступ до його функцій мережі. Найкращий спосіб перевірити РЕАЛЬНИЙ ip - сказати системі конвертувати та ip у правильний формат, а потім перевірити на справжнє / неправдиве. У разі використання Python я використовую socket.inet_aton(ip). Випадок необхідності PHP inet_aton($ip).
м3нда

Користувачі Python можуть подивитися тут: gist.github.com/erm3nda/f25439bba66931d3ca9699b2816e796c
m3nda
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.