Відповіді:
Це не повна відповідь, але це було занадто великим для вікна коментарів, і я сподіваюся, що він поставить вас на правильний шлях.
Видалення цих речей під час обробки файлів HTTrack може бути важким. У них є C API для плагінів, який, здається, забезпечує гачки, які ви могли використовувати, щоб викреслити фрагменти документа, перш ніж HTTrack сканує його для подальшого завантаження URL-адрес, але я не бачу сценарію інтерфейсу для цього (хтось інший, можливо, матиме написана одна, хоча).
Зняти ці речі після завантаження файлів HTTrack було б простіше, але, мабуть, bash тут не найкращий вибір, тому що вам доведеться витратити багато часу на навчання bash, як аналізувати HTML. Вам, мабуть, краще використовувати більш досконалу мову сценаріїв, яка має вбудовані або вільно доступні бібліотеки HTML / DOM (Perl, Python, Ruby тощо).