Я хочу отримати те, що знаходиться між цими двома тегами <tr> </tr>
- від html doc. Тепер у мене немає жодних специфічних вимог html, які б відповідали на html-аналізатор. Мені просто потрібно щось, що відповідає, <tr>
і </tr>
отримує все між ними, і може бути декілька tr
s. Я спробував awk, який працює, але чомусь це в кінцевому підсумку дає мені дублікати кожного видобутого рядка.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
Як про це піти?
awk
робота працює, але даючи дублікати, спробуйте передати вихідні дані, sort -u
щоб їх розрізнити
'/<tr/{p=1}; p; /<\/tr>/{p=0}'
. Опублікуйте приклад прикладу та очікуваний вихід, якщо він не працює.