Альтернативи wget


13

У мене на сервері є сайт, який в основному є купою HTML-сторінок, зображень та звуків.

Я втратив пароль до цього сервера і мені потрібно схопити все, що там зберігається. Я можу переходити сторінку за сторінкою і зберігати все, але на сайті є понад 100 сторінок.

Я використовую OSX. Я намагався використовувати, wgetале я думаю, що сервер це блокує.

Чи є якась альтернатива, яку я можу використати, щоб схопити цей вміст?


Якщо у вас є фізичний доступ до сервера, перейдіть в режим єдиного користувача та відновіть свій пароль. debuntu.org/…
spuder

Відповіді:


15

Якщо сервер блокує wget, він, швидше за все, робить це на основі поля "User-agent:" http-заголовка, оскільки це єдиний спосіб знати це в першу чергу. Це також може блокувати ваш IP, і в цьому випадку використання іншого програмного забезпечення не допоможе, або якась схема, яка визначає автоматизацію на основі того, наскільки швидкий набір запитів (оскільки реальні люди не переглядають 100 сторінок за 3,2 секунди) . Я не чув, щоб хто це робив, але це можливо.

Я також не чув про спосіб уповільнити wget, але є спосіб підробити поле користувача-агента:

wget --user-agent=""

Згідно з відповідною довідною сторінкою, "User-agent:" повністю скасується, оскільки це не є обов'язковим. Якщо сервер не любить цього, спробуйте, --user-agent="Mozilla/5.0"який повинен бути досить хорошим.

Звичайно, це допоможе, якщо ви краще поясните, чому ви «думаєте, що сервер це блокує». Віджет щось каже, або просто вичерпався?


о так! Дякую. Я пропустив це на допомогу wget. Працює зараз !!!!!!!!!!!!!!!!!!!!!!!!
SpaceDog

5
wgetє ряд варіантів зачекати між запитами, обмежити ціну або завантажену суму. Перевірте infoдеталі на сторінці.
Стефан Шазелас

6

Зазвичай я використовую httrackдля завантаження / дзеркального відображення веб-контенту з сайту.

$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0

Після запуску у вас залишається локальна і доступна структура каталогу. Наприклад:

$ ls -l
total 304
-rw-r--r--  1 saml saml   4243 Aug 17 10:20 backblue.gif
-rw-r--r--  1 saml saml    828 Aug 17 10:20 fade.gif
drwx------  3 saml saml   4096 Aug 17 10:20 hts-cache
-rw-rw-r--  1 saml saml    233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r--  1 saml saml   1517 Aug 17 10:20 hts-log.txt
-rw-------  1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r--  1 saml saml   5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml   4096 Aug 17 10:21 2011.example.com

Під час завантаження ви побачите такий тип виводу:

Bytes saved:    21,89KiB           Links scanned:   12/45 (+4)
Time:   2s                         Files written:   4
Transfer rate:  2,65KiB/s (2,65KiB/s)  Files updated:   1
Active connections:     1          Errors:  7

Current job: parsing HTML file (57%)
 request -  2011.example.com/cgi-bin/hostnames.pl   0B /    8,00KiB

Вона може бути фоновою та / або перервана, а пізніше відновлена. Це лише вершина айсберга з точки зору його особливостей. Існує також графічний інтерфейс для налаштування завантаження, так і для моніторингу його по мірі прогресування.

Існує велика документація на httrackвеб-сайті та за допомогою googling.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.