Я хотів би сканувати посилання під www.website.com/XYZ і завантажувати лише посилання, які знаходяться на веб-сайті www.website.com/ABC.
Я використовую таку команду wget, щоб отримати потрібні файли:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
Це прекрасно працює, коли я використовую wget 1.13.4. Але проблема полягає в тому, що я повинен використовувати цю команду на сервері, на якому є wget 1.11, і коли я використовую ту саму команду, вона закінчується завантаженням додаткових доменів, таких як:
www.website.de
www.website.it
...
Як я можу уникнути цієї проблеми? Я спробував використовувати
--exclude domains=www.website.de,www.website.it
проте він продовжував завантажувати ці домени.
Також зауважте, що я не можу використовувати, --no-parent
оскільки потрібні файли знаходяться на верхньому рівні (я хочу, щоб файли під website.com/ABC переглядали посилання на веб-сайт.com/XYZ).
Якісь підказки?
wget
не повинен перетинати хостів за замовчуванням, і вам потрібно -H
/ --span-hosts
параметр перекреслювати хости, виконуючи рекурсивний wget. "www.website.com" - це зовсім інший хост від "www.website.de".
-H
завжди вимагається повторне звернення за межами початкового хоста. Чи -D www.website.com
допомагає?