По суті, я хочу сканувати весь сайт за допомогою Wget, але мені це потрібно, щоб НІКОЛИ не завантажувати інші ресурси (наприклад, зображення, CSS, JS тощо). Я хочу лише HTML-файли.
Пошуки Google абсолютно марні.
Ось команда, яку я спробував:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Наш сайт - гібридні плоскі PHP та CMS. Таким чином, HTML "файли" може бути /path/to/page
, /path/to/page/
, /path/to/page.php
або /path/to/page.html
.
Я навіть включив, -R js,css
але він все ще завантажує файли, ТОГО відхиляє їх (безглуздо марно пропускної здатності, завантаження процесора та сервера!).
Length: 558 [text/css]
файли, які я не хочу. Якщо я можу зупинити запит, якщо заголовок не повернеться text/html
, я був би в захваті.