Нечутливий до регістру XPath містить () можливо?

Question 1

Я запускаю всі текстові вузли мого DOM і перевіряю, чи містить nodeValue певний рядок.

/html/body//text()[contains(.,'test')]

Це чутливо до регістру. Однак я теж хочу зловити Test, TESTабо TesT. Чи можливо це за допомогою XPath (у JavaScript)?

Question 2

Це для XPath 1.0. Якщо ваше середовище підтримує XPath 2.0, дивіться тут .

Так. Можливо, але не красиво.

/html/body//text()[
  contains(
    translate(., 'ABCDEFGHIJKLMNOPQRSTUVWXYZ', 'abcdefghijklmnopqrstuvwxyz'),
    'test'
  )
]

Це буде працювати для пошукових рядків, де алфавіт відомий заздалегідь. Додайте будь-які символи з наголосом, які ви очікуєте бачити.

Якщо можете, позначте текст, який вас цікавить, іншими способами, наприклад, вкладіть його в текст, <span>який має певний клас під час побудови HTML. Такі речі набагато легше знайти за допомогою XPath, ніж підрядки в тексті елемента.

Якщо це неможливо, ви можете дозволити JavaScript (або будь-якій іншій хост-мові, яку ви використовуєте для запуску XPath) допомогти вам у створенні динамічного виразу XPath:

function xpathPrepare(xpath, searchString) {
  return xpath.replace("$u", searchString.toUpperCase())
              .replace("$l", searchString.toLowerCase())
              .replace("$s", searchString.toLowerCase());
}

xp = xpathPrepare("//text()[contains(translate(., '$u', '$l'), '$s')]", "Test");
// -> "//text()[contains(translate(., 'TEST', 'test'), 'test')]"

^{(Підказка щодо відповіді @ KirillPolishchuk - звичайно, вам потрібно перекласти лише ті символи, яких ви насправді шукаєте .)}

Такий підхід буде працювати для будь-якого рядка пошуку, не вимагаючи попереднього знання алфавіту, що є великим плюсом.

Обидва вищезазначені методи не вдаються, коли рядки пошуку можуть містити одинарні лапки, і в цьому випадку все ускладнюється .

Question 3

Красивішим:

/html/body//text()[contains(translate(., 'TES', 'tes'), 'test')]

Question 4

Рішення XPath 2.0

Використовуйте малі регістри () :

/html/body//text()[contains(lower-case(.),'test')]
Використовуйте відповідність регулярного виразу match () із його прапорцем, який не враховує регістр:

/html/body//text()[matches(.,'test', 'i')]

Question 5

Так. Можна використовуватиtranslate для перетворення тексту, якому ви хочете відповідати, у нижчу регістр, як показано нижче:

/html/body//text()[contains(translate(., 
                                      'ABCDEFGHIJKLMNOPQRSTUVWXYZ',
                                      'abcdefghijklmnopqrstuvwxyz'),
                   'test')]

Question 6

Якщо ви використовуєте XPath 2.0, ви можете вказати сортування як третій аргумент для contains (). Однак URI порівняння не стандартизовані, тому деталі залежать від продукту, який ви використовуєте.

Зверніть увагу, що всі рішення, наведені раніше за допомогою translate (), передбачають, що ви використовуєте лише 26-літерний англійський алфавіт.

ОНОВЛЕННЯ: XPath 3.1 визначає стандартний URI зіставлення для збігу регістрів.

Question 7

Я завжди це робив, використовуючи функцію "перекласти" в XPath. Я не скажу, що це дуже красиво, але він працює правильно.

/html/body//text()[contains(translate(.,'abcdefghijklmnopqrstuvwxyz',
                                        'ABCDEFGHIJKLOMNOPQRSTUVWXYZ'),'TEST')]

сподіваюся, це допоможе,