У мене є кілька сотень файлів вихідного коду html. Мені потрібно витягнути вміст певного <div>
елемента з кожного з цих файлів, тому я збираюся написати сценарій, щоб пройти цикл через кожен файл. Структура елемента така:
<div id='the_div_id'>
<div id='some_other_div'>
<h3>Some content</h3>
</div>
</div>
Чи може хтось запропонувати метод, за допомогою якого я можу витягти div the_div_id
та всі дочірні елементи та вміст із файлу за допомогою командного рядка linux?
hxselect
більш вимогливий , ніж вхідний форматpup
. Наприклад, я отримуюInput is not well-formed. (Maybe try normalize?)
зhxselect
деpup
тільки розбором його.