У мене є кілька документів HTML, які мені потрібно виправити. Основні проблеми у файлі:
- Теги поза замовленням (
<p><i>like this</p></i>
) - Незакриті теги (
<p>like this
)
Я знаю, що результат не буде ідеальним, але мені потрібно швидко усунути ці прості проблеми для подальшої обробки.
Чи є інструмент для цього? Мені потрібно інструмент командного рядка, який працює на Mac OS X або Linux. Якщо немає нічого, я закінчу писати своє, але я вважаю за краще щось, що вже побудовано для завдання, якщо воно існує.
Для уточнення: Це не питання щодо рекомендацій щодо програмного забезпечення - я майже впевнений, що немає жодного програмного забезпечення, яке б це зробило, я більше шукаю шматочки та шматки, як, наприклад, sed / awk / Python / тощо. що може це досягти. Дві основні проблеми - це невпорядковані та незакриті теги, згадані вище. Якщо я можу їх вирішити, інші проблеми вирішити набагато простіше (кодування тощо)
<input>
які не закриваються? Або різниця між <p>
і <p class="foo" style="color:blue">
? Або <p>
і < p>
?