Як виключити елементи HTML за ідентифікатором чи класом за допомогою HTTrack або bash script


0

Мені потрібно скопіювати веб-сайт, але я хочу виключити конкретні елементи HTML за ідентифікатором чи класом на всіх сторінках (використовуючи сценарій bash).

Мені це потрібно, тому що я не хочу реклами чи інших прикрих особливостей деяких веб-сайтів.

Відповіді:


0

Це не повна відповідь, але це було занадто великим для вікна коментарів, і я сподіваюся, що він поставить вас на правильний шлях.

Видалення цих речей під час обробки файлів HTTrack може бути важким. У них є C API для плагінів, який, здається, забезпечує гачки, які ви могли використовувати, щоб викреслити фрагменти документа, перш ніж HTTrack сканує його для подальшого завантаження URL-адрес, але я не бачу сценарію інтерфейсу для цього (хтось інший, можливо, матиме написана одна, хоча).

Зняти ці речі після завантаження файлів HTTrack було б простіше, але, мабуть, bash тут не найкращий вибір, тому що вам доведеться витратити багато часу на навчання bash, як аналізувати HTML. Вам, мабуть, краще використовувати більш досконалу мову сценаріїв, яка має вбудовані або вільно доступні бібліотеки HTML / DOM (Perl, Python, Ruby тощо).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.