Вибір класу css за допомогою xpath

Question 1

Я хочу вибрати просто клас, який називається .date

З якихось причин я не можу змусити це працювати. Якщо хтось знає, що не так з моїм кодом, це буде дуже вдячне.

@$doc = new DOMDocument();
@$doc->loadHTML($html);
$xml = simplexml_import_dom($doc); // just to make xpath more simple
$images = $xml->xpath('//[@class="date"]');                             
foreach ($images as $img)
{
    echo  $img." ";
}

Question 2

Я хочу написати канонічну відповідь на це питання, оскільки відповідь вище має проблему.

Наша проблема

CSS селектор:

.foo

вибере будь-який елемент, що має клас foo .

Як це зробити в XPath?

Хоча XPath є потужнішим за CSS, XPath не має власного еквівалента селектора класу CSS . Однак рішення є.

Правильний спосіб це зробити

Еквівалентний селектор у XPath :

//*[contains(concat(" ", normalize-space(@class), " "), " foo ")]

Функція normalize-space знімає пробіли, що ведуть та відстають (а також замінює послідовності пробілів на один пробіл).

(У більш загальному розумінні) це також еквівалент селектора CSS:

*[class~="foo"]

який буде відповідати будь-якому елементу, значення атрибута класу якого - це список розділених пробілами значень, одне з яких точно дорівнює foo .

Кілька очевидних, але неправильних способів це зробити

Селектор XPath:

//*[@class="foo"]

не працює! оскільки він не буде відповідати елементу, який має більше одного класу, наприклад

<div class="foo bar">

Він також не збігатиметься, якщо навколо назви класу буде зайвий пробіл:

<div class="  foo ">

"Покращений" селектор XPath

//*[contains(@class, "foo")]

теж не працює! оскільки він неправильно узгоджує елементи з класом foobar , наприклад

<div class="foobar">

Заслуга цього хлопця, який був першим опублікованим рішенням цієї проблеми, яку я знайшов в Інтернеті: http://dubinko.info/blog/2007/10/01/simple-parsing-of-space-seprated-attributes- in-xpathxslt /

Question 3

//[@class="date"] не є дійсним xpath.

Спробуйте //*[@class="date"], або якщо ви знаєте, що це зображення,//img[@class="date"]

Question 4

XPath 3.1 вводить функцію contains-token і таким чином нарешті вирішує це "офіційно". Він призначений для підтримки занять .

Приклад:

//*[contains-token(@class, "foo")]

Ця функція гарантує, що пробіли (не тільки (U + 0020)) обробляються правильно, працюють у випадку повторення імені класу та, як правило, охоплюють регістри ребер.

Примітка: На сьогоднішній день (13.12.2016) XPath 3.1 має статус Рекомендації щодо кандидатів .

Question 5

У XPath 2.0 ви можете:

//*[count(index-of(tokenize(@class, '\s+' ), 'foo')) = 1]

як зазначив Крістіан Вайске в: https://cweiske.de/tagebuch/XPath%3A%20Select%20element%20by%20class.htm

Question 6

HTML дозволяє чутливі до регістру імена елементів та атрибутів, а потім клас - це розділений пробілами список назв класів. Тут ми перейдемо до imgтегу та classназваного date:

//*['IMG' = translate(name(.), 'abcdefghijklmnopqrstuvwxyz', 'ABCDEFGHIJKLMNOPQRSTUVWXYZ')]/@*['CLASS' = translate(name(.), 'abcdefghijklmnopqrstuvwxyz', 'ABCDEFGHIJKLMNOPQRSTUVWXYZ') and contains(concat(' ', normalize-space(.), ' '), concat(' ', 'date', ' '))]

Дивіться також: CSS Selector в XPath перетворення

Question 7

ОСТЕРЕЖАЙТЕСЬ МІНУС-ЗНАКІВ В ШАБЛОНІ !!! Якщо ви запитуєте "my-ownclass" у DOM:

<ul class="my-ownclass"><li>...</li></ul>
<ul class="someother"><li>...</li></ul>
<ul><li>...</li></ul>

$finder = new DomXPath($dom);
$nodes = $finder->query(".//ul[contains(@class, 'my-ownclass')]"); // This will NOT behave as expected! This will strangely match all the <ul> elements in DOM.
$nodes = $finder->query(".//ul[contains(@class, 'ownclass')]"); // This will match the element.