Як я можу завантажити весь веб-сайт?


81

Я хочу завантажити цілий веб-сайт (із підсайтами). Чи є інструмент для цього?


1
чого саме ви намагаєтесь досягти? назва та зміст вашого запитання не пов’язані між собою, а зміст - не конкретним.
RolandiXor

Зверніть увагу: лише наступні посилання (наприклад, використання --convert-linksв wget) не виявлять сайти, які розкриваються лише шляхом подання форми, серед іншого.
Стівен

Відповіді:


140

Спробуйте приклад 10 звідси :

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
  • –mirror : увімкніть параметри, що підходять для дзеркального відображення.

  • -p : завантажте всі файли, необхідні для належного відображення даної HTML-сторінки.

  • --convert-links : після завантаження конвертуйте посилання в документ для локального перегляду.

  • -P ./LOCAL-DIR : збережіть усі файли та каталоги у вказаному каталозі.

чи є можливість завантажувати лише певні сторінки (наприклад, кілька частин статей, які розповсюджуються на декілька html-документів)?
don.joey

@Private Так, хоча, мабуть, простіше використовувати python або щось для отримання сторінок (залежно від верстки / URL-адреси). Якщо URL сторінок відрізняється постійно зростаючою кількістю або у вас є список сторінок, ви, ймовірно, можете використовувати wget у скрипті bash.
Vreality

2
Ви можете розглянути можливість використання --wait=secondsаргументу, якщо ви хочете бути привітнішими до сайту; він буде чекати вказану кількість секунд між завантаженнями.
belacqua

вище працює, але для joomla параметризований URL створює файли, які не пов'язані локально. Я працював для мене wget -m -k -K -E your.domain.com звідси: vaasa.hacklab.fi/2013/11/28/…
M.Hefny

1
Також --no-parent"ніколи не підніматися до батьківського каталогу", взятого звідси .
Даніель

38

HTTrack для копіювання веб-сайтів Linux в офлайн-режимі

httrack - це інструмент, який ви шукаєте.

HTTrack дозволяє завантажувати всесвітній веб-сайт з Інтернету в локальний каталог, рекурсивно створюючи всі каталоги, отримуючи HTML, зображення та інші файли з сервера на комп'ютер. HTTrack організовує відносну структуру посилання оригінального сайту.


7

Якщо wgetви можете завантажити весь веб-сайт, вам слід використовувати -rперемикач для рекурсивного завантаження. Наприклад,

wget -r http://www.google.com

6

WEBHTTRACK WEBSITE COPIER - це зручний інструмент для завантаження цілого веб-сайту на ваш жорсткий диск для перегляду в режимі офлайн. Запустіть центр програмного забезпечення ubuntu та введіть "webhttrack copy copyer" без лапок у вікні пошуку. виберіть і скачайте його з програмного центру на вашу систему. запускайте webHTTrack з меню запуску або з меню "Пуск", звідти ви можете почати користуватися цим чудовим інструментом для завантаження вашого сайту


3

Я не знаю про піддомени, тобто про суб-сайти, але wget можна використовувати для захоплення цілого сайту. Погляньте на це питання про суперпопулярність . Там сказано, що ви можете використовувати -D domain1.com,domain2.comдля завантаження різних доменів в одному сценарії. Я думаю, ви можете використовувати цю опцію для завантаження субдоменів, тобто-D site1.somesite.com,site2.somesite.com


1

Я використовую Берп - павутинний інструмент набагато розумніший за wget, і його можна налаштувати, щоб уникнути розділів, якщо це необхідно. Сам «Burp Suite» - це потужний набір інструментів, які допомагають у тестуванні, але інструмент «павук» є дуже ефективним.


1
Чи не Burp Windows тільки? Ліцензійний договір із закритим кодом для Burp також досить важкий. Не кажучи вже про цінник $ 299,00:
Kat Amsterdam

від ліцензії: ПОПЕРЕДЖЕННЯ: БУРП-СУІТЕ БЕЗКОШТОВНЕ ВИДАННЯ ПРОЕКТУВАНО ДЛЯ ТЕСТУВАННЯ ДЛЯ БЕЗПЕКИ БЕЗПЕКИ І МОЖЕ ЗРОБИТИ ЗРУШЕННЯ ДО ЦІЛЬНИХ СИСТЕМ ЗАВЕРШЕННЯ ПРИРОДИ ЇЇ ФУНКЦІОНАЛЬНОСТІ. ТЕСТУВАННЯ ДЛЯ БЕЗПЕКИ БЕЗПЕЧНОСТІ НЕВЕРГІТНО ВІДПОВІДАЄТЬСЯ З ЦІЛЬНІСТЬМИ НЕСТАНДАРТНІМ ШЛЯХАМИ, ЯКІ МОЖУТЬ ПРИЧИНАТЬ ПРОБЛЕМИ В ЯКІЙ ВЕЛИЧНІЙ ЦІЛІ. ВИ ПОВИННІ належна ретельність при використанні програмного забезпечення, ВИ ПОВИННІ ПРОЧИТАТИ ВСЕ ДОКУМЕНТАЦІЮ ПЕРЕД ВИКОРИСТАННЯМ необхідність резервування TARGET СИСТЕМИ ПЕРЕД ВИКОРИСТАННЯМ ТА ВИ НЕ ПОВИННІ ВИКОРИСТОВУВАТИ ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ НА ВИРОБНИЧИХ СИСТЕМ ТА ІНШИХ СИСТЕМ ДЛЯ ЯКИХ РИЗИК ПОШКОДЖЕННЯ НЕ ПРИЙМАЮТЬСЯ ВАМИ .
Кет Амстердам

Для того, що це робить, цінник надзвичайно дешевий - я б рекомендував купувати його для широкого спектру тестування безпеки. І це дуже просто налаштувати на тестування саме так, як ви хочете - безпечніше, ніж AppScan в деяких випадках :-)
Rory Alsop

1
@KatAmsterdam Що стосується конкретно питання сумісності: Згідно з Вікіпедією , Burp Suite - це програма Java, тому він повинен працювати нормально на Ubuntu.
Елія Каган

Kat - вона працює чудово на різних смаках Linux. Попередження про ліцензію таке ж, як і будь-який інструмент, який ви можете використовувати для оцінки безпеки.
Rory Alsop


0

Якщо швидкість викликає занепокоєння (а благополуччя сервера - ні), ви можете спробувати puf , який працює як wget, але може завантажувати кілька сторінок паралельно. Це, однак, не готовий продукт, не підтримується та жахливо недокументований. Але для завантаження веб-сайту з великою кількістю невеликих файлів це може бути хорошим варіантом.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.