Дзеркало блогу з wget


9

Я намагаюся відобразити дзеркальний дзённік, наприклад www.example.com, с wget.

Я використовую wget із наступними параметрами (змінні оболонки правильно замінені):

wget -m -p -H -k -E -np \
    -w 1 \
    --random-wait \
    --restrict-file-names=windows \
    -P $folder \
    -Q${quota}m \
    -t 3 \
    --referer=$url \
    -U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
    -e robots=off \
    -D $domains
    -- $url

Блог містить зображення, які знаходяться в інших доменах.

Навіть незважаючи на те, що я вказав -pопцію (завантажувати пов’язані сторінки), ці зображення не завантажуються, якщо я не вказав у домені явно кожен домен -D.

Якщо я пропущу -Dпараметр, то wget буде переходити за кожним посиланням зовні www.example.comта завантажувати весь Інтернет.

Чи можна wgetпросто переходити за кожним посиланням під www.example.comі завантажувати потрібні активи кожної сторінки, чи перебувають вони в одному домені чи ні, без того, щоб я мав чітко вказати кожен домен?


Я також хотів би знайти хорошу відповідь і на цю. Я зіткнувся з тією ж ситуацією і не зміг знайти жодного виклику wget, який це зробив. Я в кінцевому підсумку скористався wget -N -E -H -k -K -pпершим і придумав сценарій, щоб отримати відсутні зв'язані зображення.
limmonsqueeze

5
Згідно з цим , httrack є вбивцею для цього. Я піду наступний раз замість wget.
limmonsqueeze

Припустимо, що ваш блог (за вирахуванням активів сторінки) не охоплює декілька доменів, спробуйте видалити -D $domainsяк і як -H. Без -Hнього він повинен залишатися у вашому домені, але все-таки отримувати активи прямої сторінки, навіть якщо вони перебувають на іншому домені.
blubberdiblub

Відповіді:


1

Ні, єдиний спосіб - вказати домени, за якими ви хочете переходити до wget, використовуючи -D або --domains = [список доменів] (у вигляді списку, розділеного комами)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.