Завантажуйте рекурсивно за допомогою wget


32

У мене проблема із такою командою wget:

wget -nd -r -l 10 http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

Він повинен рекурсивно завантажувати всі пов'язані документи з оригінальної мережі, але він завантажує лише два файли ( index.htmlта robots.txt).

Як я можу досягти рекурсивного завантаження цього веб-сайту?

Відповіді:


40

wgetза замовчуванням шанує стандарт robots.txt для сканування сторінок, як це роблять пошукові системи, і для archive.org він вимикає весь / веб / підкаталог. Щоб перекрити, використовуйте -e robots=off,

wget -nd -r -l 10 -e robots=off http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

Дякую. Чи є якийсь варіант зберігати кожне посилання лише один раз? Можливо, я повинен зменшитись 10до меншої кількості, але важко здогадатися. Тепер є файл introduction.html, introduction.html.1, introduction.html.2і я швидше закінчився процес.
xralf

І посилання прямують до Інтернету. Чи є --mirrorможливість для посилань направляти на файлову систему?
xralf

1
@xralf: ну, ви використовуєте -nd, тому різні ідентифікатори index.htmlрозміщуються в одному каталозі, і без них -kви не отримаєте перезапис посилань.
Ульріх Шварц

12
$ wget --random-wait -r -p -e robots=off -U Mozilla \
    http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

Рекурсивно завантажує вміст URL-адреси.

--random-wait - wait between 0.5 to 1.5 seconds between requests.
-r - turn on recursive retrieving.
-e robots=off - ignore robots.txt.
-U Mozilla - set the "User-Agent" header to "Mozilla". Though a better choice is a real User-Agent like "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729)".

Деякі інші корисні варіанти:

--limit-rate=20k - limits download speed to 20kbps.
-o logfile.txt - log the downloads.
-l 0 - remove recursion depth (which is 5 by default).
--wait=1h - be sneaky, download one file every hour.

-l 0 - remove recursion depth (which is 5 by default)+1
Дані
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.