Завантажте всі папки, підпапки та файли за допомогою Wget


21

Я використовую Wget, і я зіткнувся з проблемою. У мене є сайт, який містить кілька папок і підпапок в межах сайту. Мені потрібно завантажити весь вміст у кожну папку та підпапку. Я спробував кілька методів за допомогою Wget, і коли я перевіряю його завершення, все, що я бачу у папках, - це файл "індексу". Я можу натиснути на індексний файл, і це займе мене до файлів, але мені потрібні фактичні файли.

хтось має команду для Wget, яку я переглянув, чи є інша програма, яку я міг би використати, щоб отримати всю цю інформацію?

Приклад сайту:

www.mysite.com/Pictures/ в межах DIr зображень є кілька папок .....

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America / California / JoeUser.jpg

Мені потрібні всі файли, папки тощо ...


1
Чи читали ви документацію wget, зокрема для її рекурсивного використання ?
Мойсей

Там же стаття в документації тут , що здається доречним.
Мойсей

Відповіді:


38

Я хочу припустити, що ви цього не пробували:

wget -r - no-parent http://www.mysite.com/Pictures/

або завантажити вміст, не завантажуючи файли "index.html":

wget -r --no-parent --reject "index.html *" http://www.mysite.com/Pictures/

Довідка: Використання wget для рекурсивного отримання каталогу з довільними файлами в ньому


1
Дякую, я кілька разів запускав цю команду, але я не дозволив команді закінчитись до кінця. Я отримав сторону відстеження, і нехай команда фактично закінчиться, і вона спершу скопіювала ВСІ папки, потім повернулася назад і скопіювала ВСІ файли в папку.
Хоррід Генрі

просто показує вам, якби у мене було терпіння, я б це робив 2 тижні тому .... LOL. :) знову дякую.
Хоррід Генрі

@Horrid Henry, вітаємо!
Фелікс Імафідон

Я використовую подібну команду, але отримую лише файл index.html!
shenkwen

20

я використовую wget -rkpN -e robots=off http://www.example.com/

-r означає рекурсивно

-kозначає конвертувати посилання. Тому посилання на веб-сторінці будуть localhost замість example.com/bla

-p означає отримати всі ресурси веб-сторінки, тому отримайте зображення та файли javascript, щоб веб-сайт працював належним чином.

-N - це отримати часові позначки, тому якщо локальні файли новіші за файли на віддаленому веб-сайті, пропускайте їх.

-eце варіант прапора, він повинен бути там, robots=offщоб працювати.

robots=off означає ігнорувати файл роботів.

Я також мав -cу цій команді, тож якщо вони з'єднання перервались, якщо вони продовжуватимуться там, де воно припинилося, коли я повторно запустив команду. Я подумав, що -Nбуде добре-c


Чи можете ви додати пару речень до своєї відповіді, щоб пояснити, що ці налаштування параметрів роблять?
fixer1234

вибачте. впевнений погано додати їх зараз
Тім Джонас

Я оновив свою відповідь
Тім Джонас

Спасибі. Тож -c повинен бути частиною вашого прикладу команди або додаватися необов'язково після неповного завантаження? Крім того, -e є таким, що команда має перевагу над будь-яким, що може бути в .wgetrc? І це друкарня для -r (рекурсивна проти відключна)?
fixer1234

Так, це правильно. Так -e, я виконуватиме команду так, як ніби вона була частиною .wgetrc Я додав її туди, оскільки robots=off, здається, не працює без неї.
Тім Йонас

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.